[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV 2018）

[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV 2018）

当前人体估计方法中存在的问题：

（1） scale不稳定性：微小的输入bounding box扰动对人体姿态估计会造成较大影响。现有的基于Hourglass的方法通常会在某一个scale过拟合，这些方法都采用重复向前传递不同scales来解决此问题，所以这些方法缺乏对于连续scales的表示。
（2）结构先验性的不足：人体结构作为先验可以为关键点的定位提供信息，尤其是在遮挡和模糊的图像中。先前的方法中缺乏这方面的探索。所以文章提出了intermediate structural loss和global regression network以及keypoint masking scheme来处理严重遮挡的关键点。

针对这些问题，本文主要创新点：

（1） multi-scale supervision network：通过组合不同scale下的heatmap来加强人体关键点匹配的上下文特征学习；
（2） multi-scale regression network：在网络最后，用于优化multi-scale特征之间的匹配；
（3） structure-aware loss：用在回归网络的中间监督层以提高关键点和邻居节点之间的特征匹配从而推断出一个较好的匹配机制；
（4） keypoint masking training scheme：微调网络以更好地实现对遮挡关键点的定位。

multi-scale supervision network(MSS-net)：

[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV 2018）
结构见Fig.2
基于conv-deconv的hourglass module。
大体思想为在原hourglass的后半部分deconv阶段加入监督层，可以更好地抓住关键点之间的关联性。
采用1*1卷积核对高维度的feature maps进行降维，对ground-truth heatmaps进行下采样，计算每一个deconv层的残差。
MSS-net的思想与注意力机制相似，低分辨率的heatmap可以为高分辨率层的关键点定位提供信息。
损失函数：将某个scale的所有关键点L2 loss 相加。
[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV 2018）
i表示第i个scale, P G分别代表在像素点（x,y）处关节n的predict和groundtruth，N是所有关节种类数（16）。

Multi-Scale Regression Network（MSR-net）：

结构见Fig.2
网络最后的姿势结构回归器，可匹配单个关键点的相邻点对。与MSS-net共享structure-aware loss函数。
全卷积回归网络，微调MSS的heatmaps以提高estimated poses的结构一致性。
回归网络的原理在于：头和躯干提供了关于手和脚相对位置的有效的先验，可以通过考虑所有尺度上的特征图以进行姿势细化而从回归网络中学习。
MSR-net将多尺度热图作为输入，并将它们与各自尺度上的groundtruth关键点进行匹配。通过这种方式，回归网络可以有效地结合所有尺度的热图来细化估计的姿态。
Fig.4显示了MSRnet的好处。
[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV 2018）

Structure-Aware Loss：

结构见Fig.2
Fig.3 用人体骨骼图定义Structure-Aware Loss。
[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV 2018）
损失函数：

Sn表示人体关键点及与他相连的点，第一项LMS 如上所述，第二项是结构匹配损失函数，其中PSn和GSn是图S中单个关键点n及其邻居的热图的组合。

Keypoint Masking Training：

为处理遮挡情况，提出KMT用于数据增强。
Fig.5显示了两种不同的keypoint masking 机制。
[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV 2018）
由于这种数据扩充会产生多个相同的关键点补丁，因此成功的姿态估计的解决方案必须依赖于某种结构推理或知识。因此，对MSRnet进行微调尤其有益。

Experiment：

Dataset: FLIC&MPII

[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV 2018）

总结：这篇文章四个创新点，创新点之间相互联系，想法颇值借鉴。