【网络结构,人体姿态估计】Deep High-resolution Representation Learning for Human Pose Estimation

论文链接:https://arxiv.org/pdf/1902.09212.pdf

工程链接:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

最近在看人脸关键点检测,刚好看到了有人使用了HRNet(这篇论文中作者提出的方法),所以就被吸引了,看看该网络结构的特殊性; (2020-2-9)

 

                               《Deep High-resolution Representation Learning for Human Pose Estimation》

                                                      出处:中国科技大学   微软亚洲研究院

作者的主要思想:通过学习可靠的高分辨力图像特征表示进行人体姿态估计问题,将高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率的思路(单次或重复多次)

作者的方法:第一阶段使用高分辨率子网络,然后逐阶段加入从高到低的分辨率子网络,最后平行连接多分辨率子网络。我们使用了反复多尺度融合,例如:每一个High-to-low分辨力图像特征表示会不断地从其他并行图像表示中获得信息,然后形成高分辨力的图像表示;

作者提出的网络:

【网络结构,人体姿态估计】Deep High-resolution Representation Learning for Human Pose Estimation

 

作者方法的优点:

1)并行连接了high-to-low分辨力子网络,区别于常用方法的串联。并联的好处是维持了高分辨力而不是通过high-to-low处理恢复分辨力,这样使得潜在空间热图预测更加准确;

2)许多融合方案汇聚了低维和高维图像表示。使用低分辨力图像表示提升高分辨力图像表示,高分辨力特征表示有更加丰富的姿态估计。