Visual Attribute Transfer through Deep Image Analogy论文阅读笔记

介绍

论文提出了一种新的两张图片直接进行视觉属性迁移的方法。该方法针对的是两张具有不同内容却有相似语义的图像，比如两张图的主体是同一种类别的物体，并利用高层抽象特征建立起了两张图的内容的语义对应关系。
这种图像视觉属性迁移方法可以在结构上基本保留两张图中内容图的内容及结构，同时融入参考图的视觉属性。和之前的算法不同的是，这种方法甚至适用于输入是真实照片，输出也希望是真实照片的任务，即可以达到像素级别的迁移。

核心贡献

提出了一种深度图像类比的方法deep image analogy

该方法在不同的图像领域（如style/texture transfer, color/style swap, sketch/painting to photo,and time lapse）的视觉属性迁移（visual attribute transfer）任务中均有不错的表现，此前的多数风格迁移方法多局限于特定领域。

把PatchMatch和reconstruction从图像领域扩展到了特征（feature）领域

这可以有效的指导语义级的视觉属性迁移

分析

关于算法实现的个人理解：
输入是两张图A和B′。
输出有两类：
映射关系：A和B′的像素位置映射关系。
图像：内容基于A同时风格上参考了B′的图A′，内容基于B′同时风格上参考了A的图B。

为了描述简单，下面只说得到A′的流程，得到B的流程是类似的。

A和B′通过VGG19提取特征后，顶层的卷积层会输出一个粗粒度的特征图F5。因为A和A′在内容上是相似的，A′的结构基本保持和A相同，所以论文中认为A和A′在经过VGG19提取特征后，顶层的卷积层输出的粗粒度的特征图F5应该是非常相似的，即F5A≈F5A′。如果认为是相同的话就可以通过A的顶层特征图F5A进行反卷积来重建A′。
在重建A′的过程中，为了融入来自B′的特征，A′的前一层的特征图F4A′不能直接使用F5A的反卷积结果。
论文中设置了一个权重参数W来控制A′与A及B′的相似度，W的初始值是手动指定的，并且在每一次计算FLA′时，都会根据层数L对W做一个修正，使得WL随着L的下降而下降，进而在高层抽象特征上更多的参考A而在像素细节上更多的参考B′。
F4A′=W4∗F4A+(1−W4)∗R4B′
这里的R4B′是R5B′反卷积的结果，R5B′是F5B′为了在结构上匹配F5A进行变形的结果。F5B′变形的依据是对F5A和F5B′在双重约束条件（ϕa→b和ϕb→a）下执行NNF搜索，根据搜索结果进行匹配。