论文阅读:《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

概述

本文主要用CNN网络来进行人体姿态估计,加入了temporal 信息以提高精度。本文的四个贡献:

1. 提出了一个更深的CNN网络(相比于Alex-Net),不同于之前的回归坐标,而是回归heatmap,这样可以提高关节点定位的鲁棒性,并且更利于在训练过程中的可视化观察。
2. 提出一种空间融合层,用来学习隐式空间模型,即用来提取关节点之间的内在联系
3. 使用光流信息,用来对准相邻帧的heatmap 预测
4. 使用最后的参数池化层,学习将对齐的热图合并成一个聚集的置信图

网络框架

论文阅读:《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015


网络pipeline:对于当前帧t,输入它的相邻的前后n帧。利用全卷机神经网络(Spatial Net + Spatial Fusion Layers)对每一帧输出一个预测的heatmap。再利用光流信息将这些heatmap扭曲到当前帧t。之后将warped的heatmap合并到另一个卷积层中,该层学习如何权衡来自附近框架的扭曲的heatmap。最后使用集合热图的最大值作为人体的身体关节。

Spatial Fusion Layers的细节结构

论文阅读:《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

增加该结构是为了学习关节之间的内在联系,其获取的是之前CNN中的conv3和conv7,将这两层结合之后再经过5层卷积。关于loss一共有两个,一个是spatial net中的loss1,用的是L2范式,计算公式是CNN中输出的heatmap与ground truth中的目标的坐标的高斯分布的距离和。同理,spatial fusion net之后的loss2也是相同的计算方式。两者是为了保证学习的内容不同。

光流法增强heatmap

1. 使用密集光流将附近帧的信号与当前帧对准
2. 然后使用附加卷积层将这些置信度合并到复合置信度图中
3. 对每一帧的最终上半身姿势估计就是复合图中最大置信度的位置

论文阅读:《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015