Deep High-Resolution Representation Learning for Human Pose Estimation

基本思想：

作者观察到，现有姿态估计算法中往往网络会有先降低分辨率再恢复高分辨率的过程，比如下面的几种典型网络。

为便于表达，在下面的a、b、c、d四幅图中，同一水平线上的特征图为相同分辨率，越向下分辨率越小，在最终的高分辨率特征图heatmap中计算姿态估计的关键点。

下图描述了作者的思想：

Deep High-Resolution Representation Learning for Human Pose Estimation

在上图中网络向右侧方向，深度不断加深，网络向下方向，特征图被下采样分辨率越小，相同深度高分辨率和低分辨率特征图在中间有互相融合的过程。

作者描述这种结构为不同分辨率子网络并行前进。

关键点的heatmap是在最后的高分辨率特征图上计算的。

网络中不同分辨率子网络特征图融合过程如下：

Deep High-Resolution Representation Learning for Human Pose Estimation

主要是使用strided 3*3的卷积来下采样和up sample 1*1卷积上采样。

这么做有什么好处？

作者认为：

1）一直维护了高分辨率特征图，不需要恢复分辨率。

2）多次重复融合特征的多分辨率表示。

不仅仅是姿态估计

作者在官网指出，深度高分辨率网络不仅对姿态估计有效，也可以应用到计算机视觉的其他任务，诸如语义分割、人脸对齐、目标检测、图像分类中，期待更多具有说服力的结果公布。

论文地址：

http://cn.arxiv.org/pdf/1902.09212.pdf

项目主页：

https://jingdongwang2017.github.io/Projects/HRNet/PoseEstimation.html

代码地址：

https://github.com/leoxiaobin/deep-high-resolution-net.pytorch