人体姿态识别~HRNet论文笔记~《Deep High-Resolution Representation Learning for Human Pose Estimation》

有兴趣的朋友可以加微信:qyf--1314相互讨论技术

人体姿态识别~HRNet论文笔记~《Deep High-Resolution Representation Learning for Human Pose Estimation》

论文:https://arxiv.org/abs/1902.09212

官方代码:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

1、Abstract

在这篇论文中,我们主要研究人的姿态问题(human pose estimation problem),着重于输出可靠的高分辨率表征(reliable highresolution representations)。现有的大多数方法都是从高分辨率到低分辨率网络(high-to-low resolution network)产生的低分辨率表征中恢复高分辨率表征。相反,我们提出的网络能在整个过程中都保持高分辨率的表征。

      我们从高分辨率子网络(high-resolution subnetwork)作为第一阶段开始,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网并行连接。我们进行了多次多尺度融合(multi-scale fusions),使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息,从而得到丰富的高分辨率表征。因此,预测的关键点热图可能更准确,在空间上也更精确。

通过 COCO keypoint detection 数据集和 MPII Human Pose 数据集这两个基准数据集的pose estimation results,我们证明了网络的有效性。此外,我们还展示了网络在 Pose Track 数据集上的姿态跟踪的优越性。

2、Introduction

二维人体姿态估计(2D human pose )是计算机视觉中一个基本而又具有挑战性的问题。目标是定位人体的解剖关键点(如肘部、腕部等)或部位。它有很多应用,包括人体动作识别、人机交互、动画(human action recognition, human-computer interaction, animation)等。本文着力于研究单人姿态识别(single-person pose estimation),这是其他相关问题的基础,如multiperson pose estimation,video pose estimation and tracking等。

      最近的发展表明,深度卷积神经网络已经取得了最先进的性能。大多数现有的方法通过一个网络(通常由高分辨率到低分辨率的子网串联而成)传递输入,然后提高分辨率。例如,Hourglass[40]通过对称的低到高分辨率的过程(symmetric low-to-high process)恢复高分辨率。SimpleBaseline采用少量的转置卷积层(transposed convolution layers)来生成高分辨率的表示。此外,空洞卷积(dilated convolutions)还被用于放大高分辨率到低分辨率网络(high-to-low resolution network)的后几层(如VGGNet或ResNet)。

      我们提出了一种新的架构,即高分辨率网络(HRNet),它能够在整个过程中维护高分辨率的表示。我们从高分辨率子网作为第一阶段始,逐步增加高分辨率到低分辨率的子网(gradually add high-to-low resolution subnetworks),形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,我们通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合。我们通过网络输出的高分辨率表示来估计关键点。生成的网络如图所示:

人体姿态识别~HRNet论文笔记~《Deep High-Resolution Representation Learning for Human Pose Estimation》

与现有的广泛用于姿态估计(pose estimation)的网络相比,我们的网络有两个好处:

1、我们的方法是并行连接高分辨率到低分辨率的子网,而不是像大多数现有解决方案那样串行连接。因此,我们的方法能够保持高分辨率,而不是通过一个低到高的过程恢复分辨率,因此预测的热图可能在空间上更精确。parallel high-to-low resolution subnetworks

2、大多数现有的融合方案都将低层和高层的表示集合起来。相反,我们使用重复的多尺度融合,利用相同深度和相似级别的低分辨率表示来提高高分辨率表示,反之亦然,从而使得高分辨率表示对于姿态的估计也很充分。因此,我们预测的热图可能更准确。multi-resolution subnetworks (multi-scale fusion)

      我们通过实验证明了在两个基准数据集(Benchmark): COCO关键点检测数据集(keypoint detection)[36]和MPII人体姿态数据集(Human Pose dataset)[2]上优越的关键点检测性能。此外,我们还展示了我们的网络在PoseTrack数据集上视频姿态跟踪的优势。

 

 

参考:

https://blog.csdn.net/weixin_37993251/article/details/88043650