论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

主要内容

本文提出了可以对图片物体进行语义改变从而在几乎不改变物体形状、视角等信息的情况下,进行不同类别的物体替换。本文中的Mask-Contrasting GAN应用了一个conditional generator 论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN、多个针对单个类别物体判断的判别器论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN以及一个全局判别器论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN(用于判断修改物体和背景是否和谐),使用contrasting objective、略作修改的标准GAN的objective以及cycle objective三者结合,可以得到比state of the art更好的替换效果(原文实验中在MSCOCO等多个数据集上使用多种衡量方法来衡量效果)。

具体实现

由于先前的image object manipulation工作都是针对物体的低级特征进行转换,例如颜色、纹理等;又或者有的工作对转换物体的形状和结构有比较高的限制。因此本文希望在利用图像中的语义信息,在不改变原物体形状、视角等信息的情况下,强制要求物体在语义上接近目标类。总体的效果图如下:

论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

本文中的GAN模型和之前的模型相比,主要区别在loss函数的使用上。为了能找到描绘不同物体的语义信息特征,本模型加入了contrasting objective,具体设计见下文。增加这个loss项的有点有两个:1.可以估计每一类物体的特征中心,统计学层面上学习每个物体的语义信息特点。2.在语义manipulation和特征保留上做了平衡。另外,除去local discriminator控制语义信息,还有一个global discriminator控制修改部分和背景之间的连续性。

Contrasting GAN的objective设计

semantic manipulation的主要任务是学习一个input image到target domains的一个映射,所涉及到的C个类别物体的语义为论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN。而contrasting objective的目标就是让修改后的类别论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN在语义上更加接近目标类物体论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN,而相比来说远离输入类的类别论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN。contrasting GAN的结构示意如下:

论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

它由有一个conditional generator和C个local discriminator论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN组成,论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN,论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN分别表示论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN,论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN的特征以及论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN类的平均特征,因此目标是让论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN更接近论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN,因此设计出下面公式:

                             论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

得到contrasting objective:

                                      论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

同时,为了保留GAN的基本对抗概念,还引用了原始GAN的objective,只不过作者将negative log-likelihood改成了least square loss:

                                 论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

最后,为了保证两个物体意义应该为相互的倒转,因此加入了cycle GAN的loss函数:

                                   论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

结合三部分loss function,得到综合的函数表达式:

                                论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

整体框架展示

整体流程图如下图所示:

论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

一个image首先会经过一个segmentation过程,将需要改变的物体部分提取出来,做出object mask。将mask部分使用spatial transformer crop到128*128的大小,然后经过多层卷积操作,得到16*16*512的feature map,同时,一个one-hot表示类别的向量经过一个线性层处理,变成64维特征向量,然后在空间上进行重复,得到16*16*64的特征,将其拼在feature map的后面,再通过解卷积操作得到替换后的物体图,将其在crop到合适大小,插入原图背景中。在整个过程最后一步,会有一个global discriminator负责审视新生成的image是否和谐。

实验结果

                     论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

          论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

在Cityscapes dataset进行的photo和label的转化实验如上,评价标准使用FNC score,它注重审视生成图片的可解释性。从表格中可以看出来,proposed method超越了所有state of art方法。另外,对比表格中使用不同objective进行训练的结果,可以看出,三种objective结合训练的时候,模型表现最出色,可以看出没有一个objective是多余的。另外对比最后两行,可以得知,使用一个conditional generator比训练多个generator效果好,因为其有两个优势:1.特征表达能力比较强和鲁棒。2.模型相比多个generator的架构,size要小一些。

论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

在ImageNet上进行的apple和orange的转换实验效果如图所示,可以看出,cycle GAN对物体的修改都是体现在颜色等层面上(low-level characteristic),而本文方法则做的更好。而且将修改后的图片经相同分类器进行检验,本方法的迷惑能力更强(14.3% vs 10.9%)。

论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

论文笔记:Generative Semantic Manipulation with Mask-Contrasting GAN

在MSCOCO数据集上的表现如上面所示。有猫狗之间类别改变可以看出,Mask Contrasting-GAN的改变效果更好。从表格对比中可以看出,本方法的AMT衡量值优于其他方法,说明对于需要大的语义改变,该方法尤为出色。另外,对比下面的两行可以看出,不同的masking operation方法对于效果影响不大。