Pix2Pix深度学习模型生成夜间可见光图像(AI-VIS)开发日志

xiaoqianWX · 发表于 2024-6-23 00:45

补一张在训练的模型目前的预览图
还有很多训练要走，大概过个两天再看看具体是个什么情况

我不是Carl2 · 发表于 2024-7-19 11:02

2024/07/05

之前使用LPIPS的时候错用了“alex”网络作为损失函数，导致训练后期图像出现网格状纹路，SSIM表现也越来越不稳定。目前替换为了“vgg”网络作为损失函数，显存占用更大但收敛更快，训练56epoch后表现如下。目前来看替换预训练网络之后网格状纹路的问题消失了，新模型的高频细节比用SSIM炼的模型更好，但和真实的0.5km vis仍有一定差距。

xiaoqianWX · 发表于 2024-7-19 19:59

我不是Carl2 发表于 2024-7-19 11:02
2024/07/05

之前使用LPIPS的时候错用了“alex”网络作为损失函数，导致训练后期图像出现网格状纹路，SSIM ...

从7月1日开始练到现在，总计练了差不多400小时了
表现好的版本在持续更新到https://ai-vis.dapiya.top/
目前看来这个模型作为正式使用表现相比原模型好的多，虽然SSIM可能没有那么高

tn268261 · 发表于 2024-9-3 23:31

提示: 该帖被管理员或版主屏蔽

我不是Carl2 · 发表于 2024-10-29 23:41

2024/09/22

最近的进展：
1. 王总的4090重装机完成，正在训练LPIPS(VGG)+SSIM双损失函数的模型，目标是尽量消除斜纹和圆盘边缘冷流云上的非自然纹路。
2. 实验了梯度累加和lr设置变化对模型训练的影响。
3. 正在下载时间差分的数据集，打算先在1年数据的小训练集实验以比较不同输入下的模型表现。

我不是Carl2 · 发表于 2024-10-29 23:41

2024/10/29

1. LPIPS(VGG)+SSIM双损失函数的模型基本训练完成，成功消除了VGG预训练造成的斜纹影响和冷流云的非自然纹理，但高频细节可能有些微损失，目前新模型已经上架AI-VIS网页
2. 梯度累加的试验成功了，可以允许更大batchsize的训练
3. 在已有adam优化器的情况下，训练后期减小lr还会对收敛有一定加速，不过几个epoch后收敛速度回归正常
4. 时间差分的输入初步来看不算成功，没有为模型提供明显改善
5. 探索了BBDM模型，但显存和现成架构不太支持运行我们的模型
6. 成功运行了Autoencoder-KL模型，相比原先的pix2pix架构没有明显改善，但还有进一步试验空间
7. （进行中）修改了pix2pix中Generator和Discriminator的filter数量以匹配相比AI-VIS相比原版pix2pix更大的数据量（3*256*256→12*512*512）

xiaoqianWX · 发表于 2024-11-16 01:53

2024/11/15
趁着机器现在有别的项目要跑，要跑2天半，来写个更新吧

在上个更新中的7里面写的scaling experiment取得了巨大的成功，具体表现主要是LPIPS明显低于原模型，SSIM也有所提高
从视觉效果上来讲也完爆以前的所有模型，但是代价是现在Generator有~269M参数
因为效果太好，暂时管这个模型叫aivis-1.5-large
一些收获：
1. 要降GAN loss的比例，要不然不收敛
2. SSIM饱和了，他作为bench不能很好的反应模型的提升，LPIPS饱和的情况相对小很多，但是在某个点也是会饱和的
3. AI-VIS这个task比我们想象中的更复杂，当然也因为我们的训练数据集大，因此scaling获得了很好的结果，原本的模型确实是炼到完全饱和了，所以再怎么改也没什么提升
4. 再scale一点也许还能有提升，但是不确定提升是否值得（现在在fp32推理大概需要3gb显存，虽然在cpu上推理也不慢，但是再scale要求确实会高不少）
放点图：
aivis-1.5-large vs. aivis-0.9(2023.12)

aivis-1.5-large vs. aivis-1.0(2024.5)

训练log（跑到ep200+的是老模型，没有的是新模型）：
G loss:

D loss:

val SSIM:

val LPIPS:

我不是Carl2 · 发表于 2024-11-18 13:09

本帖最后由我不是Carl2 于 2024-11-18 13:11 编辑

测试新模型在圆盘图上的表现，与VGG版本相比，在成功抑制斜纹的同时高频细节也没有损失，陆地和高纬地区效果有显著提升

另外简单测试了一下羽化边缘以抹除拼接痕迹，前两张是处理前，后两张是处理后，效果还是挺满意的。以后可能考虑在网站上上线大范围一点的AI-VIS图像。

xiaoqianWX · 发表于 2024-12-2 14:52

2024/12/01
又半个月了
用了一周的时间才搞好新的超分dataset，共249,058 pairs，540gb大
上次是基于Real-ESRNet-4x的ft（带MSE loss），这次换成Real-ESRGAN-4x（对主模型实验发现MSE loss效果不好，不过这个结果并不一定正确）
上次是62737 pairs，batch size 4，炼了（大约）15ep（我算的时候发现不知道为何多出来了900step，当时填错了？），总236120step
本次是batch size 8，先试试10ep，总311322step
预计完成需要22.5小时，等等吧，后面可能再调一调各种东西看看怎么实现更好的效果

一些别的：这次训练的时候又仔细看了一遍Real-ESRGAN，经过了11月，组里面对各种东西的理解还是多了不少的，发现他和主模型的部分东西相似多颇高，都有使用LPIPS(vgg network) loss，都是GAN，大小上也和aivis_1.0接近

qscdefb · 发表于 2024-12-2 15:51

本帖最后由 qscdefb 于 2024-12-2 17:04 编辑

我不是Carl2 发表于 2024-10-29 23:41
2024/10/29

1. LPIPS(VGG)+SSIM双损失函数的模型基本训练完成，成功消除了VGG预训练造成的斜纹影响和冷流 ...

第七点的3*256*256里面，3是对应RGB三个波段、而256是预设图片大小吗？那么进行了这个scaling后，可以理解为直接输入一张边长512像素、12色的图片来进行训练吗？以前则是需要输入4张图片才能凑满12种变数

编辑1: 然后想问一下使用B07具体有什么限制？12变数版本的aivis有不少太阳信息了，高温区或许能够用上。低温区在一个恰当的温度（-60度之类的）后饱和掉的话，可能可以绕过夜间云顶的噪点问题……不过我不了解夜间aivis如何塞入太阳天顶角。

编辑2: 这种MWIR的问题似乎算是aivis昼夜变化的一个分支，目前的训练模式下似乎不支持这种与太阳角度高相关性的输入变数？

		自动登录	找回密码
密码			立即注册

[专业画图] Pix2Pix深度学习模型生成夜间可见光图像(AI-VIS)开发日志

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块