【论文阅读】RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D-HPE,CVPR2019
摘要:简单的神经网络只会记忆训练集中2D 与3D 的拟合坐标,而不会考虑其真正的投影关系。因此本文利用GAN学习3D坐标的同时学习相机参数,通过重投影损失,降低直接估计的过拟合问题。该方法能对未知数据具有很好泛化能力。
一、介绍
模型包含三部分,输入到3D pose输出的生成器,判别3D pose是否合理可行的判别器,以及学习相机参数的NN。其中,判别器不仅记忆了来自数据集的3D pose,还能有效学习到判断合理三维姿态的方法,从而判别出训练集以外生成的3D pose的可行性。
贡献点:
- 提出基于重投影的对抗训练方法
- 能够实现无2D-3D对应关系和未知相机的弱监督
- 模拟相机姿态估计
- 利用链式结构(骨长、角度)信息
- 模型泛化能力强
二、方法
1.姿态
(1)输入2D pose,经过两个残差模块(估计是martinez的结构)输入3D pose和相机内参矩阵;
(2)由于Hourglass网络估计的2D pose和Human3.6M数据的不对应,因此对未知的spine点直接置0;
2. 判别器
(1)一层将3D 转换为kcs,动力链式空间,即人体骨骼长度+各个相对角度,实现方法蛮有意思:
3*J的pose矩阵乘以元素为1或0或-1的j*b系数矩阵,使得关节点坐标转换为骨骼长度坐标3*b得到矩阵B;
将矩阵B转置自乘,得到对角线为骨骼长度,非对角为骨骼夹角的KCS矩阵;
(2)另一层直接是3D pose的坐标表示。
(3) 判别式使用的WGAN的损失
3.相机估计/重投影误差
(1)用NN估计相机参数
(2) 弱相机视角下,相机内参矩阵满足
(3)相机参数损失为
(4)通过重投影误差,实现弱监督
三、实验结果
1.Human3.6M 89.9mm 50.0mm
2.MPI-INF-3DPH 82.5
个人总结:
1. KCS和重投影的挺有说服力
2.弱监督是指说明?W loss没用到真实3D 作为输入吗?