2020-08-06
**
PaddlePaddle论文复现营-U-GAT-IT论文解读
**
U-GAT-IT
code(代码) :
https://github.com/taki0112/UGATIT(tensorflow版本)
https://github.com/znxlwm/UGATIT-pytorch(pytorch版本)
datasets(数据集):horse2zebra、photo2vangogh、cat2dog、 photo2pocode(代码) :
https://github.com/taki0112/UGATIT(tensorflow版本)**
论文贡献**
1.提出了一种新的无监督图像到图像的转换方法,它使用了一个新的注意模块和一个新的标准化函数,AdaLIN;
2.根据获得的 attention map ,帮助模型知道在图像的某处进行集中变化;
3.AdaLIN函数帮助我们的注意力引导模型灵活地控制形状和纹理的变化量,而不需要修改模型结构或超参数。
论文主要内容
网络结构:
生成器
对输入端的图像下采样
配合残差块增强图像特征提取
注意力模块
对注意力模块通过AdaLIN引导下残差块
通过上采样得到转换后的图形
判别器则可认为反向的生成器工作流程
论文的创新点在于引入了新的自适应实例归一化(AdaLIN)
其中μI,μL和σI,σL分别为通道,分层和标准差,γ和β是由连接层生成的参数,τ是学习率Δρ表示由优化器确定的参数更新矢量(例如,梯度)。
由上图可知,AdaLIN就是instance normalization和layer normalization的结合。AdaLIN的前提要保证通道之间不相关。因为它仅仅对图像map做归一化。
损失函数
U-GAT-IT的损失函数由四部分构成:
GAN的对抗损失
循环一致性损失
身份损失(相同域之间不希望进行转化)
CAM损失(生成器中对图像域分类,希望源域和目标域可以尽可能分开,这部分利用交叉熵损失)
网络评估
KID( Kernel Inception Distance),计算真实图像和生成图像的特征表示之间的最大平方差。
135名参与者被展示了不同方法的翻译结果,包括源图像的方法,并要求他们选择最佳的翻译图像到目标域。
表2显示,除了photo2vangogh外,该方法的得分显著高于其他方法,在人类感知研究中与其他方法相比具有可比性。
非常感谢百度提供的学习资源,论文复现课程链接为:https://aistudio.baidu.com/aistudio/education/group/info/1340