百度飞浆顶会论文复现 GAN之《First Order Motion Model for Image Animation》
百度飞浆顶会论文复现 GAN之《First Order Motion Model for Image Animation》
Aliaksandr Siarohin,Stéphane Lathuilière,Sergey Tulyakov,Elisa Ricci,Nicu Sebe
[University of Trento,Snap Inc.]
论文提出了一种基于视频的动作捕捉和视频生成模型,采用自监督学习方法(self-supervised)解耦视频中的形象和动作信息,并且不需要目标建模和数据标注,这使得该方法的应用变得十分便利。
NeurIPS 2019
CV - 计算机视觉
GAN - 对抗生成网络
论文地址:https://arxiv.org/abs/2003.00196
论文代码: https://github.com/AliaksandrSiarohin/first-order-model# 论文思路和实现方法
论文思路,具体方法和结论数据
这部分从整体思路和具体实现方法两个方面对论文做一个大概的介绍,然后给出论文提供的实验数据,从而对论文有一个大体的认识。
思路和具体方法
论文的主要思路是设计关键点判别器(Keypoint Detector ),密集动作生成器和图像生成器三个神经网络,数据流可理解为:模版图片和动作驱动帧作为输入传递给关键点判别器,从中抽取的关键点和形变形象输入动作生成器产生光流和遮罩数据,最后汇总模版图片,光流和遮罩三个数据输入图像生成器,产生最终输出图像,如下图所示。
实验数据和结论
论文在Tai-Chi-HD,VoxCeleb,Nemo,Bair 四个数据集上都进行了实验,数据指标均有提升,如表3所示:
论文的优缺点
在这个章节中,我根据自己的理解提炼出论文的优点和缺点,优点说明改论文的亮点以及在该领域作出了那些贡献,缺点说明论文提出的方法和实验结果的不足之处和可以提升空间和方向。
优点
该论文的最大亮点是不需要数据标注就可以实现动作捕捉和视频生成,区别于很多动作捕捉算法都要求具有目标的3D模型和标记数据,如人类3D,物体3D模型等,获取成本通常比较高昂,而该论文提出的自监督学习方法省去了对这部分数据的要求,因此具有更广阔的应用前景。
缺点
虽然论文给出了很好的实验数据,但笔者运行论文给出的开源代码发现,产生的视频还不够理想,动作幅度偏大时图像扭曲较为严重,牙齿和眼睛的细节呈现也比较差,而且产生图像的分辨率也偏低,与实拍视频还是有不小的差距。