Arbitrary Style Transfer with Deep Feature Reshuffle

Arbitrary Style Transfer with Deep Feature Reshuffle

Shuyang Gu, Congliang Chen, Jing Liao, Lu Yuan
University of Science and Technology of China, Peking University, Microsoft Research
https://arxiv.org/pdf/1805.04103v1.pdf

图像合成

图像合成主要分为parametric和non-parametric两种方法,这里主要讨论neural image synthesis。
parametric方法从一张噪声图像x开始,对x不断进行优化,使得x的统计量(如Gram矩阵、均值方差、直方图等)与内容图像和风格图像匹配,如Neural Style。该方法能够较好地保留内容图像的结构和风格图像的整体观感,但是在局部区域会有较大程度的没有语义信息的变形,况且想找到这么一个合适的统计量也并非易事。
non-parametric通过贪心搜索内容图像中与风格图像相似的patch进行替换使内容图像的风格与目标图像相似。该方法避免了parametric方法中的问题,但是生成的图像在风格模式上不够丰富,看起来有一种washed-out的感觉。如下图所示
Arbitrary Style Transfer with Deep Feature Reshuffle
Arbitrary Style Transfer with Deep Feature Reshuffle
arbitrary style transfer: 在特征空间使内容图像特征的统计量匹配风格图像的,然后通过解码器生成出来。
本文的目的就是要融合两种方法,取长补短。基本思路是从non-parametric方法出发,引入parametric方法中使用的图像全局约束。采用的方法是feature reshuffle,即在空域对图像特征进行重排。可以证明,reshuffle之后的图像特征的Gram矩阵保持不变,保证生成的图像和风格图像的整体一致性(parametric方法的优势),并且一些特定的reshuffle方法有助于内容图像和内容图像局部语义信息的匹配(non-parametric方法的优势)。

reshuffle

Neural Style
minLtotal=αLcont+(1α)Lstyle,Lcont=FoFcF2,Lstyle=GoGsF2
Non-parametric
minLtotal=αLcont+(1α)Lmatch,Lmatch=pΨ(Fo)ΨNN(p)(Fs)F2
本文的目标
min{Lcont,Lstyle,Lmatch}
图像特征的reshuffle实际上就是从S={0,...,M1}×{0,...,N1}到自身的一个映射T。设原特征为F(x),则shuffle后的特征为F(T(x))
可以证明,对于后两个目标而言,feature reshuffle可以保证Lstyle=0,在patch大小为1时还可以保证Lmatch=0,这样只需考虑选取合适的shuffle方式,并使得Lcont尽可能小即可。

方法

minLtotal=αLcont+(1α)Lshuffle,Lshuffle=pΨ(Fo)ΨNNC(p)(Fs)F2
NNC(p)表示带约束条件的最近邻patch,而Lshuffle的优化目标是使得风格图像中的patch尽可能均衡地被使用
进行逐层优化,到第二层时用图像特征通过解码器解码出图像