论文阅读1《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networ》
paper链接https://arxiv.org/abs/1711.10485,
code链接https://github.com/taoxugit/AttnGAN,
作者的homepage https://sites.google.com/view/taoxu
本文给出的是CVPR 2018的文章《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》。它是StackGAN++的后续工作。
一、相关工作
对GAN的相关理解:https://blog.****.net/zlrai5895/article/details/80648898
前作StackGAN的工作:http://blog.****.net/zlrai5895/article/details/81292167
二、基本思想
1、文章要做的事情(Text to Image Synthesis):
输入:text 输出:image
2、通过引入attentional generative network,AttnGAN可以通过关注自然语言描述中的相关单词来合成图像不同子区域的细粒度细节。此外,提出了一种deep attentional multimodal similarity model来计算细粒度图像-文本匹配损失,用于生成器的训练。
它首次表明 the layered attentional GAN 能够自动选择单词级别的condition来生成图像的不同部分。
三、 数据集
本次实验使用的数据集是加利福尼亚理工学院鸟类数据库-2011(CUB_200_2011)。