论文笔记《Image Inpainting via Generative Multi-column Convolutional Neural Neworks》
文章提出了一种通过生成多列的卷积神经网络用于图像修复问题。
论文来自NIPS2018
1 Motivation
图像修复过程中三大难题:(1)提取图片合适的特征 (2)寻找相似的块 (3)综合辅助信息
本文针对图像修复的三大难题进行改进,在特征提取方面,提出了一种生成多列的CNN结构,因为多列结构可以将图像分解成具有不同感受野和特征分辨率的分量。在寻找相似块方面,提出了一种隐式多样化马尔可夫随机场(ID-MRF)项,但只将其作为正则化项。在综合辅助信息方面,设计了一种新的置信驱动的重建损失,根据空间位置约束生成内容。
2 Method
2.1 Network Structure
网络分为三个子网络:预测结果生成器;对抗训练的全局和局部鉴别器;计算ID-MRF损失的预训练的VGG19网络。
网络的输入是待修复图片矩阵X以及Mask矩阵M(已知像素点为0其他的为1)。
2.2 ID-MRF正则化项
与原来相似性度量(余弦相似性),寻找到相似的邻居块之后就会减少结构的变化(图a),因此,我们采取相对距离度量来模拟局部特征和目标特征集合之间的关系(图b)。
我们对其ID-MRF项定义如下:
首先定义两个块之间相似性:
其中L表示VGG网络的第L层。
对其进行标准化
根据VGG19网络的经验,conv4_2层表示图像语义结构,conv3_2和conv4_2表示图像纹理
2.3空间异构的重建损失
为了对空间位置施加约束,我们设计了置信驱动的重建损失,其中靠经填充边界的未知像素要比远离边界的区域受到更强的约束。我们将权重作用于损失函数,解决边界一致性问题。
定义损失权重Mask矩阵:
为了将已知像素的置信度传播到未知像素,采用高斯滤波器g对进行卷积。
最终的置信驱动的重建损失定义为:
2.4 对抗性损失
本文的对抗性损失参考的是NIPS2017的一篇论文。
2.5 目标函数
其中λadv和λmrf用于平衡局部结构正则化和对抗性训练之间的影响。
3 Experiment
本次实验在五个大型数据集上进行的:Paris street view ,Places2,ImageNet ,CelebA, CelebA-HQ
3.1 定性评估
分别对比几种方法在不同数据集上的成像效果,可以看到我们所提出的方法优于其他方法。
3.2 定量评估
采用PSNR和SSIM来定量评估效果。
可以看到CE方法在两个数据集上超过了我们的方法,这是因为生成任务本来就不能仅仅通过PSNR和SSIM来比较,所以作者进行了Google Froms平台的A/B实验。
我们可以看到,不管是那个数据集的修复任务,我们的方法产生的效果更易被人接受。
3.3 消融实验
为了验证我们所提出的模块的有效性,进行消融实验。
3.3.1 编码器-解码器 VS 粗到细 VS GMCNN
3.3.2 固定感受野VS 可变感受野
3.3.3 有ID-RMF项vs无ID-RMF项
3.3.4 空间衰减的重建损失 vs 置信驱动的重建损失
3.3.5 参数????????????????的影响
根据实验经验,λmrf= 0.02~0.05达到较好的平衡。
4 Conclusion
4.1 主要贡献
- 提出了生成多列CNN结构用于提取特征
- 定义新的相似性度量使用ID-MRF来模拟真实纹理
- 定义置信驱动的重建损失来表达空间变量约束
4.2 限制
在处理大型数据集与数千种不同的对象和场景类别有一定的困难,如ImageNet。 当数据属于几个类别时,我们的方法效果最好,因为在这些情况下可以去除结构和纹理方面的模糊度。