MirroGAN: Learning Text-to-image Generation by Redescription

摘要

尽管 GAN 已经能够生成非常逼真的高分辨率图片了, 但是要确保生成的图片和文本语义的一致还是一个很有挑战性的问题. 为了解决这个问题, 作者提出了 MirroGAN (a novel global-local attentive and semantic-preserving text-to-image-to-text framework) 这个模型. 这个模型主要由三个部分组成:

文本语义嵌入模块 (STEM, semantic text embedding module):

STEM 模块主要是为了生成单词和句子级别的嵌入语义.
全局和局部的注意力协同模块 (GLAM, global-local collaborative attentive module):

在这个模块主要是使用 STEM 模块生成的嵌入语义作为全局和局部的注意力逐步生成语义一致且逼真的图片.
语义文本再生和对齐模块 (STREAM, semantic text regeneration and alignment module):

在这个模块会使用一个 RNN 网络对生成的图片重新生成描述, 然后与原来的文本进行语义上的对齐.

模型的结构示意如下:

1. 注意力机制的应用

之前的文本到图像任务都是只通过一个判别器去判断文本和生成的图片对是否逼真以及图片语义是否和文本语义一致, 但是由于文本和图像之间的语义鸿沟, 单纯的依赖判别器是很难判断的而且是很不高效. 最近注意力模块开始被用来解决这个问题, 在 AttnGAN 中就使用了单词层次的注意力. 但是作者认为仅仅使用单词层次的注意力是不够的, 例如在 CUB 和 COCO 数据集中同一个语义的描述分别有 10 个和 5 个. 作者认为对于多阶段训练的生成器, 语义平滑是很重要的, 一次全局的句子级别的注意力也是应该要考虑的.

1.1 STEM 模块

在 MirroGAN 中 STEM 模块就是为了提取描述的单词特征和句子特征的模块. 作者使用了 RNN 提取这些特征:

$w, s=RNN(T)$

其中 $T=\{T_l|l=0,\cdots,L\}$ , $L$ 表示句子的长度. $w=\{w^l|l=0,\cdots,L\}\in\mathbb{R}^{D\times L}$ 表示单词级别的特征, $s\in\mathbb{R}^{D}$ 表示句子级别特征. 由于不同的单词的排序可能表示相同的语义. 因此, 为了提高模型的鲁棒性, 这里作者还使用了StackGAN 中提出的 conditioning augmentation method, 从而产生更多的图像-文本对数据, 增强对条件文本流形上的小扰动的鲁棒性.

$s_{ca}=F_{ca}(s)$

其中 $s_{ca}\in\mathbb{R}^{D'}$ , $D'$ 是增强后的维度.

2. 文本到图像与图像到文本

虽然从图像到文本是另外一个任务, 但是这两个任务都需要在两个域 (文本域和图像域)对齐语义. 所以作者就想到构建一个包含这两个任务的模型, 在这个模型下就能够使用对称的约束. 下图展示了这种约束:

MirroGAN: Learning Text-to-image Generation by Redescription

2.1 GLAM 模块

GLAM 模块是一个级联的生成网络. 借鉴了 AttnGAN 的结构:

$f_0=F_0(z, s_{ca})$

$f_i=F_i(f_{i-1}, F_{att_i}(f_{i-1}, w, s_{ca})), i \in\{1,2,\cdots,m-1\}$

$I_i=G_i(f_i),i \in\{1,2,\cdots,m-1\}$

其中 $F_{att_i}$ 就是全局-局部注意力协同模块, 包含了两个部分 $Att_{i-1}^w$ 和 $Att_{i-1}^s$ , $F_{att_i}(f_{i-1},w,s_{ca})=concat(Att_{i-1}^w,Att_{i-1}^s)$ , 其中

$Att_{i-1}^w=\sum_{l=0}^{L-1}(U_{i-1}w^l)(softmax(f_{i-1}^T(U_{i-1}w^l)))^T$

其中 $U_{i-1}\in\mathbb{R}^{M_{i-1}\times{D}}$ 是一个视觉感知层, 计算完之后 $Att_{i-1}^w$ 和 $f_{i-1}$ 有相同的大小.

$Att_{i-1}^s=(V_{i-1}s_{ca})\circ(softmax(f_{i-1}\circ(V_{i-1}s_{ca})))$

其中 $\circ$ 表示逐元素相乘 $V_{i-1}$ 也是一个视觉感知层, 计算完之后会和 $Att_{i-1}^w$ 进行拼接.

2.2 STREAM 模块

STREAM 模块是从生成的图像得到文本描述, 作者使用了一个应用广泛的 Encoder-Decoder 结构的框架. 编码器是一个在 ImageNet 上预训练的 CNN 网络, 解码器是一个 RNN 网络. 最后一个生成器生成的图片 $I_{m-1}$ 会被送到这个网络中.

$x_{-1}=CNN(I_{m-1})$

$x_t=W_eT_t, t\in\{0,\cdots, L-1\}$

$p_{t+1}=RNN(x_t),t\in\{0,\cdots, L-1\}$

$x_{-1}\in\mathbb{R}^{M_{m-1}}$ 是送入 RNN 的图像特征, $W_e\in\mathbb{R}^{M_{m-1}\times D}$ 表示词嵌入向量.

3. 目标函数

为了能够端到端的训练模型, 作者还是使用了两个判别损失: 一个是判别图像是否真实的损失, 另一个是判别图像和文本对是否一致的判别损失. 然后针对重新生成的文本, 作者基于交叉熵损失设计了一个文本重建损失.

生成器的目标函数如下:

$\mathcal{L}_{G_i}=-\frac{1}{2}\mathbb{E}_{I_i\sim p_{I_i}}[log(D_i(I_i))]-\frac{1}{2}\mathbb{E}_{I_i\sim p_{I_i}}[log(D_i(I_i,s))]$

STREAM 模块的损失函数为:

$\mathcal{L}_{stream}=-\sum_{t=0}^{L-1}\log{p_t(T_t)}$

这个损失函数还是 STREAM 网络预训练时的损失函数.

所以总的损失函数为:

$\mathcal{L}_{G}=\sum_{i=0}^{m-1}\mathcal{L}_{G_i}+\lambda\mathcal{L}_{stream}$

判别器的损失函数为:

$\mathcal{L}_{D_i}=-\frac{1}{2}\mathbb{E}_{I_i^{GT}\sim p_{I_i}^{GT}}[\log{(D_i(I_i^{GT}))}]\\-\frac{1}{2}\mathbb{E}_{I_i\sim p_{I_i}}[\log{(1-D_i(I_i))}]\\-\frac{1}{2}\mathbb{E}_{I_i^{GT}\sim p_{I_i}^{GT}}[\log{(D_i(I_i^{GT},s))}]\\-\frac{1}{2}\mathbb{E}_{I_i\sim p_{I_i}}[\log{(1-D_i(I_i,s))}]$

所以:

$\mathcal{L}_D=\sum_{i=0}^{m-1}\mathcal{L}_{D_i}$

4. 实验

4.1 对比实验

作者在 COCO 和 CUB 数据集上面做了对比实验:
MirroGAN: Learning Text-to-image Generation by Redescription

然后作者还专门做了和 AttnGAN 的对比实验:
MirroGAN: Learning Text-to-image Generation by Redescription

然后作者还做实验验证全局注意力(GA, global attention)的作用以及 $\lambda$ 的影响:
MirroGAN: Learning Text-to-image Generation by Redescription

MirroGAN: Learning Text-to-image Generation by Redescription