HRNet V1 论文阅读笔记

论文:《Deep High-Resolution Representation Learning for Human Pose Estimation

论文链接:https://arxiv.org/abs/1902.09212

代码链接:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

 

摘要

    在本文中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。 大多数现有方法从由高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。 相反,我们提出的网络在整个过程中都保持高分辨率表示

    我们从高分辨率子网络开始作为第一个stage,逐步将高到低分辨率子网逐个添加以形成更多的stage,然后将多分辨率子网并行连接。 我们进行了反复的多尺度融合,以使每一个从高到低的分辨率表示一次又一次地从其他并行表示中接收信息,从而获得丰富的高分辨率表示。 结果,预测的关键点热图可能更准确,空间上更精确。 我们通过优于两个基准数据集(COCO关键点检测数据集和MPII Human Pose数据集)的优越姿态估计结果,通过实验证明了我们网络的有效性。 此外,我们在PoseTrack数据集上显示了我们的网络在姿势跟踪中的优越性。 该代码和模型已在https://github.com/leoxiaobin/
deep-high-resolution-net.pytorch.公开发布。

 

引言

    二维人体姿势估计一直是计算机视觉中的一个基本但具有挑战性的问题。 目标是定位人体解剖学关键点(例如肘部,腕部等)或部位。 它具有许多应用,包括人类动作识别,人机交互,动画等。本文关注单人姿势估计,这是其他相关问题的基础,例如多人姿势估计[6,27,33 ,39、47、57、41、46、17、71],视频姿态估计和跟踪[49、72]等。

   最近的发展表明,深度卷积神经网络已经实现了最先进的性能。 现有的大多数方法都通过网络(通常由串联的高到低分辨率子网组成)传递输入,然后提高分辨率。 例如,Hourglass[40]通过从低到高的对称过程恢复了高分辨率。 SimpleBaseline [72]采用一些转置的卷积层来生成高分辨率表示。 另外,空洞卷积还用于放大高分辨率网络的后面层(例如VGGNet或ResNet)[27,77]。

    我们提出了一种新颖的体系结构,即高分辨率网络(HRNet),它能够在整个过程中保持高分辨率表示。 我们从高分辨率子网络开始为第一阶段,逐步将高到低分辨率子网逐个添加以形成更多stage,并并行连接多分辨率子网。 我们通过在整个过程中一遍又一遍地在并行多分辨率子网中交换信息来进行重复的多尺度融合。 我们估算网络输出的高分辨率表示的关键点。 生成的网络如图1所示。

HRNet V1 论文阅读笔记

 图1.说明了提出的HRNet的体系结构。 它由并行的高到低分辨率子网组成,并在多分辨率子网之间进行重复的信息交换(多尺度融合)。 水平和垂直方向分别对应于网络的深度和特征图的比例。 

    与现有的姿势估计网络(40、27、77、72)相比,我们的网络有两个好处。 (i)我们的方法以并行方式而不是大多数现有解决方案中的串行方式连接高分辨率分辨率子网。 因此,我们的方法能够保持高分辨率,而不是通过从低到高的过程来恢复分辨率,因此,预测的heatmap可能在空间上更加精确。 (ii)大多数现有的融合方案汇总了低级和高级表示形式。 取而代之的是,我们执行重复的多尺度融合,以借助相同深度和相似水平的低分辨率表示来增强高分辨率表示,反之亦然,从而导致高分辨率表示也丰富了姿势估计。 因此,我们预测的热图可能更准确。

    我们凭实验证明了优于两个基准数据集的出色的关键点检测性能:COCO关键点检测数据集[36]和MPII Human Pose数据集[2]。 此外,我们在PoseTrack数据集[1]上展示了我们网络在视频姿态跟踪中的优越性。

相关工作

    单人姿势估计的大多数传统解决方案都采用概率图形模型或图形结构模型[79,50],最近通过利用深度学习对一元和成对能量进行更好的建模而得到了改进[9,65,45] 或模仿迭代推理过程[13]。 如今,深度卷积神经网络提供了主导解决方案[20、35、62、42、43、48、58、16]。 有两种主流方法:直接回归关键点的位置[66,7];估计关键点热图[13,14,78],然后选择热量值最高的位置作为关键点。

   大多数用于关键点热图估计的卷积神经网络由类似于分类网络的茎子网络组成,该子网络降低了分辨率,主体产生的分辨率与输入的分辨率相同,然后由回归值估计关键点位置所在的热图。 估计,然后转换为完整分辨率。 主体主要采用从高到低和从低到高的框架,并可能通过多尺度融合和中间(深度)监控来增强。

     高到低和低到高: 从高到低的过程旨在生成低分辨率的高级表示,而从低到高的过程旨在生成高分辨率的表示[4,11,23,72,40,62]。 可能会重复执行这两个过程几次,以提高性能[77、40、14]。

    代表性的网络设计模式包括:(i)从高到低和从低到高的对称过程。 Hourglass及其后续[40、14、77、31]设计了从低到高的过程,作为从高到低的过程的镜像。 (ii)重高到低,轻低到高。 从高到低的过程基于ImageNet分类网络,例如[11,72]中采用的ResNet,从低到高的过程只是一些双线性上采样[11]或转置卷积[72] 层。 (iii)与空洞卷积相结合。 在[27,51,35]中,在ResNet或VGGNet的最后两个阶段采用了扩展卷积以消除空间分辨率损失,随后进行了从轻到高的轻度过程以进一步提高分辨率,从而避免了昂贵的计算成本 只使用膨胀卷积[11,27,51]。 图2描绘了四个代表性的姿态估计网络。

HRNet V1 论文阅读笔记

图2.依赖于从高到低和从低到高框架的代表性姿态估计网络的图示。 (a)Hourglass[40]。 (b)级联金字塔网络[11]。 (c)SimpleBaseline [72]:从低到高处理的转置卷积。 (d)与空洞卷积的组合[27]。 右下图例:reg. =规则卷积,dilated=扩张卷积,trans. =转置卷积,stride=大跨步卷积,concat. =串联。 在(a)中,从高到低和从低到高的过程是对称的。 在(b),(c)和(d)中,从高到低的过程(属于分类网络(ResNet或VGGNet)的一部分)很重,而从低到高的过程则很轻。 在(a)和(b)中,高到低和低到高过程的相同分辨率层之间的skip-connect(虚线)主要旨在融合低级和高级功能。 在(b)中,正确的部分finenet结合了通过卷积处理的低级和高级功能。 

    多尺度融合:最直接的方法是将多分辨率图像分别送入多个网络并聚合输出响应图[64]。 Hourglass[40]及其扩展[77、31]通过skip-connection逐步将高到低过程中的低级特征组合为低到高过程中相同分辨率的高级特征。 在级联金字塔网络[11]中,全局网将高到低过程中的低到高级特征逐步组合到低到高过程中,然后精炼网将处理后的低到高级特征结合起来 通过卷积。 我们的方法重复了多尺度融合,这部分受深度融合及其扩展的启发[67,73,59,80,82]。

    中间监督:早期开发的用于图像分类的中间监督或深度监督[34,61]也被用于帮助深度网络训练和提高heamap估计质量,例如[69,40,64,3,11]。 hourglass方法[40]和卷积姿势机方法[69]将中间热图作为剩余子网的输入或输入的一部分进行处理。

    我们的方法:我们的网络并行连接从高到低的子网。 它在整个过程中保持高分辨率表示,以进行空间精确的heatmap估计。 它通过重复融合从高到低子网产生的表示来生成可靠的高分辨率表示。 我们的方法与大多数现有作品不同,后者需要一个单独的从低到高的上采样过程,并汇总低级和高级表示形式。 我们的方法,无需使用中间的热图监督,在关键点检测精度方面是卓越的,并且在计算复杂性和参数方面是高效的。

    有用于分类和分割的相关多尺度网络[5、8、74、81、30、76、55、56、24、83、55、52、18]。 我们的工作部分地受到其中一些的启发[56,24,83,55],并且存在明显的差异,使它们不适用于我们的问题。 卷积神经结构[56]和互连的CNN [83]未能产生高质量的分割结果,原因是每个子网络上缺乏适当的设计(深度,批归一化)和多尺度融合。 网格网络[18]是许多权重均分的U-Net的组合,由跨越多分辨率表示的两个单独的融合过程组成:在第一阶段,信息仅从高分辨率发送到低分辨率; 在第二阶段,信息仅从低分辨率发送到高分辨率,因此竞争力降低。 多尺度密集网[24]并不针对且无法生成可靠的高分辨率表示。

方法