百度飞桨PaddlePaddle论文复现——StarGANv2论文解读
百度顶会论文复现营
论文解读
PyTorch代码及论文
Motivation
多领域
- 考虑到每个域中的不同风格样式的图像。设计和学习此类模型会变得很复杂,因为数据集中可能有大量的style(每个图像都有唯一的外观)和domain(一组可以分为视觉上独特类别的图像)。
- 目前图像转换方法都仅考虑两个域之间的映射。若有K个域,需要训练 K(K-1 )生成器来处理每个域与每个域之间的转换。
- StarGan缺乏多样性。由于每个域都由预先定义标签来表示,所以没有掌握数据分布的多样性 (mutil-modal) 本质。
Methodology
StarGan v2
-
使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder
-
映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支,每个分支都提供特定域的样式码,训练时将选取其中对应domain的一个
-
Generator
将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s
删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接 -
映射网络Mapping network
网络包括k个输出分支,表示有k个域,给定隐变量z和对应的域y,生成样式码???? -
Style encoder:
网络包括k个输出分支,表示有k个域,给定图像x及其对应的域y,编码器E提取x的样式码???? -
Discriminator:
网络包括k个输出分支,表示有k个域,每个分支都学习一个二元分类,确定图像x是域y的真实图像还是G生成的伪图像,因此输出维度D被设定为1,作为real/fake的分类
训练目标
-
对抗目标Adversarial objective
-
风格重构Style reconstruction
-
保留源图特性Preserving source characteristics
-
总体目标
Results
AFHQ
- 发布了一个新的动物面孔数据集Animal FacesHQ(AFHQ)
- 包括512×512分辨率的15,000张高质量图像。数据集包括猫,狗和野生动物的三个域,每个域提供5000张图像。
量化评价指标
- Frechétinception distance (FID)衡量真实图像和生成图像之间的差异性
- Learned perceptual image patch similarity (LPIPS) 衡量生成图像的多样性
人类评价
生成图像
代码解读
最后…大家快来参加百度paddle paddle顶级论文复现营吧!手把手教学!