论文阅读：《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

概述

本文主要用CNN网络来进行人体姿态估计，加入了temporal 信息以提高精度。本文的四个贡献：

1. 提出了一个更深的CNN网络（相比于Alex-Net），不同于之前的回归坐标，而是回归heatmap，这样可以提高关节点定位的鲁棒性，并且更利于在训练过程中的可视化观察。
2. 提出一种空间融合层，用来学习隐式空间模型，即用来提取关节点之间的内在联系
3. 使用光流信息，用来对准相邻帧的heatmap 预测
4. 使用最后的参数池化层，学习将对齐的热图合并成一个聚集的置信图

网络框架

网络pipeline：对于当前帧t，输入它的相邻的前后n帧。利用全卷机神经网络（Spatial Net + Spatial Fusion Layers）对每一帧输出一个预测的heatmap。再利用光流信息将这些heatmap扭曲到当前帧t。之后将warped的heatmap合并到另一个卷积层中，该层学习如何权衡来自附近框架的扭曲的heatmap。最后使用集合热图的最大值作为人体的身体关节。

Spatial Fusion Layers的细节结构

论文阅读：《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

增加该结构是为了学习关节之间的内在联系，其获取的是之前CNN中的conv3和conv7，将这两层结合之后再经过5层卷积。关于loss一共有两个，一个是spatial net中的loss1，用的是L2范式，计算公式是CNN中输出的heatmap与ground truth中的目标的坐标的高斯分布的距离和。同理，spatial fusion net之后的loss2也是相同的计算方式。两者是为了保证学习的内容不同。

光流法增强heatmap

1. 使用密集光流将附近帧的信号与当前帧对准
2. 然后使用附加卷积层将这些置信度合并到复合置信度图中
3. 对每一帧的最终上半身姿势估计就是复合图中最大置信度的位置

论文阅读：《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

论文阅读：《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

概述

网络框架

Spatial Fusion Layers的细节结构

光流法增强heatmap

相关推荐