飞桨PaddlePaddle复现论文UGATIT

本文实现的工作

提出了一种无监督的图像到图像翻译的新方法，可以满足纹理和图像差别很大的两个图像域之间的转换问题。该方法具备新的attention模块和新的归一化功能AdaLIN。
attention模块通过基于辅助分类器获得的attention map增强生成器的生成能力，从而区分源域和目标域，也增强了判别器的判别能力，更好地区分了原始图像和生成图像。

AdaLIN功能帮助我们的attention-guided模型灵活地控制形状和纹理的变化量，而无需修改模型架构或超参数。即在相同的模型架构和超参数情况下实现保留形状的图像转换（例如horse2zebra）和更改形状的图像转换（例如cat2dog）。如下图所示
预备知识

 3.1 GAN

GAN即生成对抗网络，由一个生成器和一个判别器组成。以图像生成模型为例，生成器的目标是要尽可能地生成接近真实的图像，而判别器的目标是要尽可能地区分真假图片，在生成器和判别器的这种博弈关系中，构成了GAN。GAN的模型可以简化为：生成器生成图片->判别器学习区分生成的图片和真实图片->生成器根据判别器的结果改进自己->生成新的图片-> ······。

3.2 cycleGAN

cycleGAN论文地址

此模型包含两个映射函数G:X→Y和F:Y→X，以及相关的对抗性标识符DY和DX。DY鼓励G将X转换为与域Y不可区分的输出，对于DX和F则反之亦然。为了进一步规范化映射，我们引入了两个循环一致性损失函数，如果我们从一个域转换为另一域然后再转换为最初的域，则应该和最初的域几乎一致：(b)前向循环一致性损失：X→G(X)→F(G(X))≈X，以及©后向循环一致性损失：Y→F(Y)→ G(F(Y))≈Y。

4、模型

从模型结构上来看生成器和判别器的结构几乎相同，但是生成器比判别器多了AdaLIN和Decoder部分

从模型的流程上来看生成器首先对输入的图像进行下采样，然后通过残差模块得到编码特征图，然后将该特征图经过全连接层得到一个节点的预测，再将全连接层的参数和编码特征图相乘得到attention特征图，再对attention特征图通过AdaLIN引导至可适应残差块，最后上采样得到转换后的图像。

对于本文的U-GAT-IT来说，是由两个GAN网络组成的，一个网络实现将源图像变为目标图像，另一个GAN网络则可以将目标图像变为原图像的模式。

5、AdaLIN

本文提出的AdaLIN自适应归一化方法是在传统的归一化方法上进行的改进。一般来说实例级归一化Instance Normalization (IN)和层级归一化Layer
Normalization（LN）使用场景较多，LN更多的是考虑输入通道之间的相关性，所以在不同图像风格的转换上更加彻底，而IN更多的是考虑到的是单个通道的内容，从而可以更好地保存原图像的语义信息，所以本文将这两种归一化方式结合起来，提出了AdaLIN，它可以在IN和LN之间动态选择。

要注意的是AdaLIN仅对图像的map做归一化。

6、损失函数

 6.1 对抗损失

对抗损失用于使翻译后的图像的分布与目标图像的分布相匹配：

6.2 周期损失

周期损失是为了减轻模式坍塌问题，我们将周期一致性约束应用于生成器。给定一个图像X∈Xs，在X从Xs到Xt以及从Xt到Xs的顺序转换之后，图像应成功转换回原始域：

6.3 身份损失

身份损失是为了确保输入图像和输出图像的颜色分布相似，我们将身份一致性约束应用于生成器。给定图像X∈Xt，使用Gs→t转换X后，图像不应改变。

6.4 CAM损失

生成器中对图像域分类，希望源域和目标域可以尽可能分开，这部分利用交叉熵损失。

7、实验

本文用五个不成对的图像数据集（包括四个代表性的图像翻译数据集）和一个新创建的由真实照片和动画作品（即selfie2anime）组成的数据集评估了每种方法的性能。所有图像均调整为256×256进行训练。

8、实验结果

计算真实图像和生成图像之间的最大均值差异，值越小表示真是图像与生成图像之间有更多视觉相似性，图像翻译的效果越好。

其中从顶到下数据集分别为selﬁe2anime,horse2zebra, cat2dog, photo2portrait, and photo2vangogh，(a)Source images, (b)U-GAT-IT, ©CycleGAN, (d)UNIT, (e)MUNIT, (f)DRIT, (g)AGGAN

可以很明显地看出U-GAT-IT的效果最好。