RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces论文阅读笔记

论文原文地址:RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces

本文和上一篇FSNet极为相似,:FSNet: An Identity-Aware Generative Model for Image-based Face Swapping,有需要的小伙伴可以对照着看.
RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces论文阅读笔记

摘要:RSGAN:使用潜在空间中的面部和头发表示进行面部交换和编辑

  • 本文提出了一种基于属性的编辑和随机人脸部件合成的人脸图像自动生成和编辑的集成系统。 该系统基于一个深度神经网络,该网络利用大规模人脸图像数据集对人脸和头发区域进行变分学习。 与传统的变分方法不同,所提出的网络分别表示人脸和头发的潜在空间。 我们将所提出的网络称为区域分离生成对抗性网络(RSGAN)。 所提出的网络独立地处理潜在空间中的人脸和头发外观,然后通过替换人脸的潜在空间表示来实现人脸交换,并用它们重建整个人脸图像。 这种方法在潜在空间稳健地执行人脸交换,即使是以前的方法导致失败的图像,比如由于不适当的拟合或三维变形模型。 此外,该系统还可以通过操作视觉属性或用随机生成的面部或头发部件组合来进一步编辑具有相同网络的面部交换图像。

引言

  • 人的脸是从古至今识别个体的重要标志。 传统上人脸图片是用来记录人的身份。 如今,许多人喜欢在社交网站上分享他们的日常照片,其中通常包括人脸。 在这种情况下,人们想要让照片更有吸引力。 由于这一需求,在计算机图形学和视觉研究社区中引入了大量的人脸图像分析[1-4]和操作[5-11]研究。

  • 人脸交换是人脸图像编辑的最重要技术之一,具有广泛的实际应用,如集体照片[5]、虚拟发型拟合[9]、隐私保护[6,12,13]和机器学习数据增强[14-16]。 传统的人脸交换方法首先检测源图像和目标图像中的人脸区域。 通过数字图像拼接将源图像的人脸区域嵌入到目标图像中。为了说明我们的研究动机,我们在下面的段落简要回顾了以前的面部交换方法。

  • 最流行的人脸交换方法之一是使用三维变形模型(3DMM)[5,17]。 在这类方法中,首先通过拟合3DMM[1,2]得到人脸几何形状及其相应的纹理映射。 源和目标图像的纹理映射然后与估计的UV坐标交换。 最后,利用用目标图像估计的照明条件对替换后的人脸纹理进行重新渲染。 这些方法与3DMM可以取代面孔,即使是那些有不同的方向或在不同的照明条件。 然而,在实际应用中,这些方法容易导致人脸几何形状或照明条件的估计失败。 不正确的估计通常是有问题的,因为人们可以敏感地注意到这些几何形状和照明条件的轻微不匹配。[3DMM缺点就在估计照明条件]

  • 在人脸交换的具体应用中,如隐私保护和虚拟发型拟合,可以任意选择源图像或目标图像。 例如,即使从随机图像中提取新的人脸区域,目标图像的隐私也可以得到保护。 这表明了从大型图像数据库[6,9]中选择一个源图像和目标图像的想法。 该类中的方法可以选择两个输入图像中的一个,这样所选图像与其对应图像相似。 因此,这些方法可以避免在困难的情况下用不同的人脸方向或不同的照明条件替换人脸。 然而,这些方法不能用于任意输入人脸图像之间的人脸交换的更一般目的

  • 最近大量的深度学习研究促进了与大规模图像数据库的人脸交换。 Bao等人。 在他们的条件图像生成论文中引入了一个人脸交换演示,并提出了一个名为CVAE-GAN[18]的神经网络。 他们的方法在训练数据集中为每个人使用数百幅图像,并将人脸身份作为图像条件学习。 在桌面软件工具“FakeApp”中使用了类似的技术[19]由于其易于使用的管道与深度神经网络(DNN)进行人脸交换,最近引起了人们的广泛关注)。 这个工具需要数百个图像的两个目标人交换的脸。 然而,为非名人准备如此大量的肖像图像是相当不可取的。 与这些技术相比,Korshunova等人。 [13]将神经风格转移[20]应用于人脸交换, 通过对预先训练的网络进行微调,在源图像中对一个人的几十幅图像进行微调,将神经风格的传递[20]应用于人脸交换。 不幸的是,对于大多数人来说,收集许多图像并对网络进行微调以生成单个人脸交换图像仍然是不切实际的。[许多方法需要同一个人的大量图片进行训练,但是这样不太方便]

  • 在本文中,我们使用生成神经网络来解决上述问题,我们将其称为“区域分离生成对抗性网络(RSGAN)”。虽然已经介绍了大量关于这种深层生成模型的研究,但将其应用于人脸交换仍然具有挑战性。 在普通生成模型中,网络合成的图像或数据作为训练数据获得。 然而,很难准备一个包括人脸交换前后人脸图像的数据集。 我们通过设计网络来解决这个问题,为每个面部和头发区域学习不同的潜在空间。该方法中使用的生成器网络被训练成从两个随机向量合成自然人脸图像,这些向量对应于人脸和头发区域的潜在空间表示。 因此,生成器网络可以从实际图像样本计算的两个潜在空间表示中合成一个人脸交换图像。 图2.中示出了RSGAN的体系结构。
    RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces论文阅读笔记
    图2. 所提出的RSGAN的网络体系结构,包括三个部分网络,即两个分隔网络和一个合成网络。 分隔网络分别提取输入图像x的人脸和头发区域的潜在空间表示zf和zh。 作曲家网络从两个潜在空间表示重构输入人脸图像。 通过两个鉴别器网络对重建图像x0和输入图像x进行评估。 全局判别器Dg区分图像是真实的还是假的,补丁判别器Dp区分图像的局部补丁是真实的还是假的。

  • 该体系结构由两个变分自动编码器(VAE)和一个生成对抗性网络(GAN)组成)。 两个VAE部分将面部和头发外观编码为潜在空间表示,GAN部分从面部和头发的潜在空间表示中生成自然的面部图像。在SEC3中介绍了网络的详细描述及其训练方法。 除了人脸交换外,这种变分学习还支持其他编辑应用,如视觉属性编辑和随机人脸部件合成。 为了评估该方法的人脸交换结果,我们利用了身份保存和交换一致性两个度量。 身份保存是使用开源人脸特征提取器OpenFace[21]进行评估的。 通过测量输入图像与通过两个输入图像之间交换两次得到的图像之间的绝对差异和多尺度结构相似性(MS-SIM)[22]来评估人脸交换的一致性。 RSGAN的应用结果及其评价见SEC 4.
    贡献:

  • 作为一种人脸交换和编辑系统,该方法与以往的方法相比具有以下优点:

    • 1.它提供了一个用于人脸交换和附加人脸外观编辑的集成系统
    • 2.它的应用是通过训练单个DNN来实现的,并且不需要任何额外的运行时计算,如微调
    • 3.它即使对于不同人脸方向人脸或在不同的照明条件下,也能稳健地执行高质量的人脸交换

2.相关工作

2.1Face swapping

  • 为了不同的目的,在许多研究中对人脸交换进行了研究,如集体照片[5]、虚拟发型拟合[9]、隐私保护[6,12,13]和大型机器学习[16]的数据增强。 几项研究[7,12]只交换了脸的部分,如眼睛、鼻子和嘴,而不是在图像之间交换整张脸。 如上一节所述,传统的人脸交换方法之一是基于3DMM[5,17]。 将3DMM拟合到目标面,得到人脸几何形状、纹理映射和照明条件的近似[1,2]。 使用3DMM,通过替换纹理映射和使用估计的照明条件重新呈现人脸外观来实现人脸交换。 这些基于3DMM的方法的主要缺点是它们需要手动对齐3DMM以获得精确的拟合。[3DMM方法的缺点]
  • 为了缓解这个问题,Bitouk等人。 [6]提出了一种用大规模人脸图像数据库进行人脸自动交换的方法。 他们的方法首先搜索具有与输入图像相似布局的人脸图像,然后用边界感知的图像组合替换人脸区域。 Kemelmacher-Shlizerman[9]最近提出了一种更复杂的方法。 她精心设计了一个手工制作的特征向量来处理面部图像,并实现了高质量的面部交换。 然而,这些通过搜索相似图像的方法不能自由选择输入图像,不适用于任意的人脸图像对。[传统方法缺点]
  • 最近,鲍等人。 在他们的CVAE-GAN[18]论文中引入了一个人脸交换演示,它是一个用于条件图像生成的DNN。 在他们的方法中,CVAE-GAN经过训练,通过处理人脸身份作为生成图像的条件,在训练数据集中生成特定人员的人脸图像。 该CVAE-GAN通过改变目标图像的人脸身份条件来实现人脸交换。 [CAVE-GAN的方法]
  • Korshunova等人。 应用神经风格转移,这是另一种人脸交换[13]深度学习技术。 他们的方法类似于原始的神经风格转移[20]在意义上,面部身份处理类似于艺术风格。 目标面的人脸身份被源面的人脸身份所取代。 这些基于DNN的模型的共同缺点是用户必须收集至少几十幅图像才能获得人脸交换图像。虽然收集如此多的图像是可能的,但对大多数人来说,仅仅为了他们的个人照片编辑而收集这些图像是不切实际的。[Korshunova利用神经风格迁移的方法:缺点就是收集大量个人招照片是不切实际的]

2.2面部图像编辑

  • 为了增强面部图像的视觉吸引力,人们提出了多种技术,如面部表情转移[7,23]、吸引力增强[24]、 face image relighting[25,26]。 在传统的人脸图像编辑中,使用人脸分析工具,如主动外观模型[27]和三维变形模型[1,2],对底层的三维人脸几何形状和人脸部件排列进行估计。 这些底层信息在编辑算法中被操纵,以提高输出图像的吸引力。 另一方面,最近基于DNN的方法没有明确地分析这些信息。 通常,输入图像和用户的编辑意图被馈送到端到端的DNN,然后,编辑结果直接从网络输出。例如,几个基于自动编码器的DNN模型[18,28-30]被用来操纵人脸的视觉属性,其中视觉属性,如面部表情和头发颜色,被修改以改变人脸图像外观。[最近的一些基于DNN的方法是一个黑匣子]
  • 相反,Brock等人。 [31]提出了一种基于油漆界面的图像编辑系统,其中DNN根据用户指定的输入图像和油漆笔画合成自然图像输出。 基于DNN的图像完成[32,33]的几项研究提出了通过用DNN填充输入图像的部分来操纵人脸外观的演示。 然而,估计这些方法的结果是相当困难的,因为它们只填充用户绘制的区域,而且结果在训练数据中是合理的。**[Brock的方法无法客观评价]

3.区域分隔GAN

  • 用DNNs交换面部的主要挑战是在面部交换前后准备面部图像,因为没有特殊的手段去换脸,一个真实的人的脸就不能被另一个人的脸所取代。 收集这种人脸图像的另一种可能的方法是数字合成它们。 然而,这是一个鸡和蛋的问题,因为合成这样的面部交换图像是我们的主要目的。 为了克服这一挑战,我们利用变分方法来表示面部和毛发的外观。 在人脸交换中,在图像空间中分别处理一个人脸区域和一个头发区域。

  • 人脸交换问题被概括为合成任意一对人脸和头发图像的问题。 提出的RSGAN的目的是利用人脸和头发外观的潜在空间表示来实现这种图像合成。 在所提出的方法中,这一目的是通过图中所示的DNN来实现的。如图 2.所示,RSGAN的体系结构由两个VAE组成,我们称之为分离器网络,一个GAN,我们称之为合成网络。 在这个网络中,脸和头发区域的外观首先被分隔网络编码成不同的潜在空间表示。 然后,生成网络生成具有所获得的潜在空间表示的人脸图像,从而重建输入图像中的原始外观。 然而,只有来自真实图像样本的潜在空间表示的训练会导致过度拟合。[只有真实的人脸图像参数与训练会导致过拟合]

  • 我们发现,以这种方式训练的RSGAN忽略了人脸表示的潜伏空间,并在人脸交换的同时合成了与目标图像相似的图像。因此,我们向合成网络提供随机潜在空间表示,使它们被训练成合成自然人脸图像,而不是过度拟合训练数据。[RSGAN解决了上述问题]

  • 设x为训练图像,c为其对应的视觉属性向量。 通过人脸编码器FE-xf和头发编码器FE-xh,得到了x的人脸和头发外观的潜在空间表示zxf和zxh。 同样,可视化属性c被嵌入到属性的潜在空间中。 通过编码器FE-cf和FE-ch得到人脸和头发属性向量的潜在空间表示zcf和zch。 作为标准VAE,这些潜在空间表示是从多元正态分布中采样的,其平均值和方差由编码器网络推断。
    RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces论文阅读笔记
    其中µl和σ2l是用编码器得到的zl的平均值和方差。 用于人脸和头发区域的解码器网络FD-f和FD-h分别从相应的潜在空间表示中重建外观x’f和x’h。 合成网络G用编码器的潜在空间表示生成重构的外观x’。 这些重建过程制定为:
    RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces论文阅读笔记

  • 此外,从多元标准正态分布N(0,1)中抽样的随机变量在训练中一起使用。 设ˆzxf、ˆzxh、ˆzcf和ˆzch分别对应于zxf、zxh、zcf和zch的随机变量。 我们还计算了随机人脸图像ˆx’与这些样本:
    RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces论文阅读笔记

  • 通过两个鉴别器网络Dg和DP对输入图像x和两个生成的图像x’和ˆx’进行评估。 全局鉴别器Dg区分这些图像是真实的还是假的,就像标准GANs[34]中的那样。 另一方面,补丁鉴别器DP最初用于图像到图像网络[35],它区分本地补丁是来自真实图像还是假图。 此外,我们还训练了一个分类器网络C来估计从输入图像x∗的视觉属性c。 分类器网络通常需要编辑一个图像,而这个图像没有准备好视觉属性。 此外,分类器网络还获得了一个条目在0到1之间的视觉属性向量,而在许多公共数据集中准备的视觉属性向量的离散值为0或1。 这样的中间值是有利的,例如,当我们用两个视觉属性项“黑发”和“棕色头发”表示深棕色头发时”。 因此,即使在为x准备视觉属性时,我们也使用估计的属性c∗而不是c。

5.结论**

  • 本文提出了一种基于生成神经网络的人脸图像综合编辑系统。 该系统实现了高质量的人脸交换,这是本研究的主要范围,即使对于不同方向和不同照明条件的人脸。 由于所提出的系统可以将人脸和毛发的外观编码为潜在空间表示,因此可以通过操纵潜在空间中的表示来修改图像外观。 作为一种深度学习技术,RSGAN体系结构和我们的训练方法的成功意味着深度生成模型甚至可以获得在训练数据集中没有准备的一类图像。 我们相信,我们的实验结果为生成训练数据集中难以准备的数据集提供了一个关键。