(个人)基于深度学习的中国传统特色图像的风格迁移创新实训第一周(2)
本周的主要工作是研究了Gatys发表在CVPR 2016 上的文章Image Style Transfer Using Convolutional Neural Networks
风格迁移主要包括,内容重构、风格重构、风格迁移三个部分。
内容重构
content reconstruction
给定一张图片p⃗ 和训练好的卷积网络,那么在每层可以得到多个feature map,个数取决于每层滤波器的个数Nl。我们把个feature map向量化,得到大小为Ml的向量。把每一层的Nl个特征向量保存到矩阵Fl∈RNl×Ml中,其元素Flij表示第l层的第i个滤波器在位置j上的**响应。
现在指定一层的特征表示,希望生成一张新的图片x⃗ 使其在该层的特征表示Pl等于原特征表示Fl(内容匹配)。定义损失函数如下:
改变最初的随机图像,直到它在卷积神经网络的某一层产生与原始图像p相同的响应。论文里的最初图像选择了一张椒盐图像。之后,在网络中较低层的包含了原始图像精确的像素信息。而在高层的特征映射中只包含了像素的空间排列信息,而忽略了底层的纹理,颜色信息。
风格重构
style reconstruction
利用Gram矩阵表示特征map,公式如下:
每一层的损失函数如下:
总的损失函数如下:
通过梯度下降算法,希望椒盐噪声图像的风格和元图像的风格保持一致。即最小化原始图像到生成图像的Gram矩阵之间的均方距离。
风格迁移
Style transfer
在这张椒盐噪声的图片上,共同最小化内容表示和风格表示。损失函数如下:
最后利用L-BFGS进行图片的合成得到最终的图片。
但是这篇文章也存在一些问题:
因为文章中的算法是一遍训练一遍迁移的,因此没法做到实时性。这就是我们要解决的问题,初步思路是先进行预学习,将风格模型提前训练好。为每个风格训练一个网络。,这样使用时,只需输入内容图片,可实现实时性。