Dense Intrinsic Appearance Flow for Human Pose Transfer 小白解读
Dense Intrinsic Appearance Flow for Human Pose Transfer
主要提出了一种方法;通过输入姿态p2和图片x1,x1的姿势p1来生成图片x2。
具体框架:
概述:
主要结构如图,首先通过flow regresion模块求3D 外观流F和可视图V。然后将p1和p2送入pose Encoder Gep网络。将x1送入appearance encoder Gea。将Gea提取的特征与F和V进行融合,F进行特征的扭曲变形,V进行像素是否可视的变换。将feature wrap输出的ckaw放入decoder Gd。生成???? ̃2,然后进一步增强生成???? ̂ 2.放入辨别器。
F(ui)表示同一个人体(3D)的同一位置在不同图片的2维坐标下的差值。u’表示x1中的点,u表示x2中的点。
hi表示3D人体的一个点,V(ui)表示hi点在图片x1中是否可见。
flow regresion的具体结构如图,其中V的红色部分表示不可见部分,绿色部分表示可见部分。其中的ground truth作者是通过骨架生成3D模型来实现的。
因为存在一些3D模型不怎么符合实际。所以,作者用图像渲染器,来自这篇文章( Angjoo Kanazawa, Michael J Black, David W Jacobs, and Jitendra Malik. End-to-end recovery of human shape and pose. In CVPR, 2018. 4, 5 )获取。
Feature Warping 模块将Gea输出的外观特征Cka和F,V整合。
主要是在两个映射的指导下对输入图像特征进行扭曲。
F用来做扭曲,V用来做目标图像的像素丢失。
STN用来做特征图的调整。Gating做可见和不可见的区分。
然后通过两个连接层和一个叠加层输出Ckaw。
采用pixel warping来增强???? ̃2在像素水平的效果。
当用F来扭曲原图X1,生成Xw,保留外观特征,出现严重畸变。
因此在???? ̃2和Xw间训练一个新的Unet,接受F和V的信息,输出一个同分辨率的(0,1)范围内的标准化图像z。 起一个衡量权重的任务。
主要用了3种损失函数。一个对抗损失函数,一个L1损失,一个感知损失。
总的loss为三部分的加权和。
对抗损失函数
对抗损失函数
计算生成图与原图的差距
用预先训练的VGG19来提取生成图与原图的特征的差距。
总的损失
效果如下