【网络结构，人体姿态估计】Deep High-resolution Representation Learning for Human Pose Estimation

最近在看人脸关键点检测，刚好看到了有人使用了HRNet(这篇论文中作者提出的方法)，所以就被吸引了，看看该网络结构的特殊性；（2020-2-9）

《Deep High-resolution Representation Learning for Human Pose Estimation》

出处：中国科技大学微软亚洲研究院

作者的主要思想：通过学习可靠的高分辨力图像特征表示进行人体姿态估计问题，将高分辨率特征图下采样至低分辨率，再从低分辨率特征图恢复至高分辨率的思路（单次或重复多次）；

作者的方法：第一阶段使用高分辨率子网络，然后逐阶段加入从高到低的分辨率子网络，最后平行连接多分辨率子网络。我们使用了反复多尺度融合，例如：每一个High-to-low分辨力图像特征表示会不断地从其他并行图像表示中获得信息，然后形成高分辨力的图像表示；

作者提出的网络：

【网络结构，人体姿态估计】Deep High-resolution Representation Learning for Human Pose Estimation

作者方法的优点：

1）并行连接了high-to-low分辨力子网络，区别于常用方法的串联。并联的好处是维持了高分辨力而不是通过high-to-low处理恢复分辨力，这样使得潜在空间热图预测更加准确；

2）许多融合方案汇聚了低维和高维图像表示。使用低分辨力图像表示提升高分辨力图像表示，高分辨力特征表示有更加丰富的姿态估计。