TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

©PaperWeekly 原创 · 作者｜李凯

学校｜清华大学硕士生

研究方向｜多模态机器学习、计算机视觉

概要

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

论文标题：

Deep High-Resolution Representation Learningfor Visual Recognition

论文链接：

https://arxiv.org/abs/1908.07919

代码链接：

https://github.com/HRNet

这是一篇发表在 PAMI（2020）关于计算机视觉任务通用模型（HRNet [1]）的文章。该文章指出在计算机视觉领域中不同分辨率对于结果起着至关重要的作用。而目前大部分的 backbone（ResNet [2]，DenseNet [3]，ResNest [4] 等）将图像的分辨率逐渐变小，这对于一些需要精细信息的视觉任务会产生一定的影响，例如语义分割，目标检测和人体姿态估计等。

本文的主要创新点是在整个模型计算的过程中始终保持着高分辨率，在并行连接高至低分辨率特征图，在交互模块中交换不同分辨率的特征信息。因此所得到的特征图在语义上更丰富，并且在空间上更精确。

HRNet 在很多的计算机视觉任务中表现出很好的结果，包括人体姿势估计，语义分割和目标检测。这说明 HRNet 可以作为解决计算机视觉任务的 backbone。作者在论文中放出的开源的代码目前已经获得 11.4k 的 star。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

HRNet模型结构

在文章中指出有不同的从低分辨率恢复高分辨率的结构。(1) 一种从高分辨率学习低分辨率特征图的神经网络（例如 VGGNet [5]，ResNet和ResNet变体等）。(2) 一种下采样后上采样恢复高分辨率特征图神经网络，例如 U-Net ，Hourglass 等。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

▲ 图1. HRNet的模型结构示意图

这个网路主要包含三个部分：多分辨率并行支路，多分辨率并行支路融合模块和特征图结果输出模块。

多分辨率并行支路。首先将高分辨率卷积支路作为第一步，逐步将高至低分辨率支路逐个添加，形成新的阶段，然后并行连接多分辨率支路。下一级并行支路的分辨率包括前一级的分辨率和一个较低的分辨率。

图 1 所示的网络结构包含 4 个并行流，逻辑上如下图 2 所示。其中，是第 s 阶段的支路，r 是分辨率大小的索引。最大分辨率的分辨率索引为 1，第 r 的分辨率索引为最大分辨率支路的倍。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

▲ 图2. HRNet逻辑结构示意图

多分辨率融合模块的目标是在多分辨率表示形式之间交换信息，如图 3 所示。对于多分辨率融合包含上采样，平级，下采样。其中下采样包括跨一层下采样和多层下采样。上采样使用插值法，平级使用卷积，下采样（如果支路大于 2，使用多个 stride>1 的卷积进行下采样操作）。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

▲ 图3. 多分辨率融合模块的上采样，下采样。蓝色模块为上采样过程，绿色模块为下采样过程。

Representation Head（特征图结果输出模块）。在文章中提出了三种 Representation Head，如图 4 所示，分别表示为 HRNetV1，HRNetV2 和 HRNetV2p。其中 HRNetV1 模型将应用于人体姿势估计，HRNetV2 模型将应用于语义分割，HRNetV2p 模型应用于目标检测的结果。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

▲ 图4. 三种不同的Representation Head

HRNetV1。仅输出高分辨率支路中的特征图，而忽略其他三个支路特征图。如图 4 (a) 所示

HRNetV2。将不同分辨率支路的特征图通过 concat 方式进行拼接作为输出。如图 4 (b) 所示

HRNetV2p。在 HRNetV2 的高分辨率表示的基础上通过降采样到多个级别来构建多级特征图。如图 4 (c) 所示

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

多分辨率并行卷积和多分辨率融合模块的探究

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

▲ 图5. （a）多分辨率并行卷积，（b）多分辨率融合模块，（c）普通卷积（左）等同于完全连接的多分支卷积（右）

多分辨率并行卷积类似于组卷积（Group convolution [6]），如图 5 (a) 所示。它将输入通道分为通道的几个子集，并分别对不同空间分辨率的每个子集进行卷积操作。但是在组卷积中，不同子集之间的分辨率是相同的。这种并行卷积和组卷积的联系意味着多分辨率并行卷积存在群卷积的某些好处。

多分辨率融合模块类似于普通卷积的多分支全连接形式，如图 5（c）所示。输入通道分为几个子集，输出通道也分为几个子集。输入和输出子集以完全连接的方式连接，并且每个连接都是普通卷积。

输出通道的每个子集都是输入通道的每个子集上的卷积输出的总和。区别在于，HRNet 的多分辨率融合需要处理分辨率的变化。因此，HRNet 融合了更多的空间信息在多分辨率融合模块。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

实验分析

在文章中做了三个不同任务的实验分别为人体姿态估计，语义分割和目标检测。

4.1 人体姿态估计实验

对于人体姿态估计的实验，HRNetV1 和 HRNetV2 的结果差不多且 HRNetV1 的计算复杂度更低，因此在该实验中使用 HRNetV1 作为选用的模型。训练和测试数据集均使用 COCO 数据集 [7]。

评价指标选用目标关键点相似度（Object Keypoint Similarity, OKS）。在 COCO val 数据集上的比较的结果如下表格，采用小模型 HRNetV1-W32（从零开始训练）的方法比以前的最新方法具有更好的性能。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

在 COCO test-dev 数据集上，HRNetV1 和现有最先进方相比要好得多。另一方面，轻量网络 HRNetV1-W32 的 AP 达到 74.9，其性能优于其他所有自上而下的方法，并且在模型大小（Params）和计算复杂度（GFLOP）方面更加高效。而大型模型 HRNetV1-W48 则达到了最高 AP 得分 75.5。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

4.2 语义分割实验

在语音分割的任务上，作者使用了 HRNetV2 作为该任务的模型。在文章中使用三个数据集作为评估的数据集：两个自然场景解析数据集，PASCAL-Context [8] 和 Cityscapes [9]，一个人类场景数据集 LIP [10]。采用均交并比（mIoU）作为评价指标。

Cityscapes val 数据集的结果如下表所示。我们可以发现 HRNetV2-W40（40 表示高分辨率卷积的宽度），模型尺寸与 DeepLabv3 + 类似，但是计算复杂度低得多，性能更佳。并且与其他模型相比结果更好。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

Cityscapes test 数据集的结果如下表所示，HRNetV2-W48 在 Cityscapes val 和 Cityscapes test 数据集上均具有出色的性能。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

HRNetV2 在 PASCAL-Context 数据集上的结果如下表所示。在该数据集下评估模型方法有两种：59 类和 60 类（59 类+背景）的 mIoU。在这两种情况下，HRNetV2-W48 都能获得最好的结果。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

对于人类场景数据集 LIP，HRNetV2-W48 的整体性能以较少的参数和较低的计算成本表现出最佳性能。在该数据集的结果如下表所示。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

4.3 目标检测

目标检测任务，作者使用 MS COCO2017detection 数据集进行评估。首先使用了 HRNetV2p，ResNet，ResNext [11] 和 Hourglass [12] 作为 backbone 的参数量和 GFLOPs 进行对比，如下表所示。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

然后在 Faster R-CNN [13] 和 Cascade R-CNN [14] 框架中对 COCOval 进行评估。HRNetV2p 比 ResNet 和 ResNeXt 表现更好。结果如下表所示。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

在 FCOS 和 CenterNet 框架中的 COCOval 数据集目标检测结果如下表所示。结果使用作者提供的实现方式获得的。HRNetV2p 在相似的参数和计算复杂性方面优于 ResNet 和 Hourglass。但是 HRNetV2p-W64 的性能比 Hourglass-104 稍差，原因是 Hourglass-104 比 HRNetV2p-W64 参数量多。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

Mask R-CNN 及其扩展框架上的 COCO val 上的目标检测结果，如下表所示。除了 HRNetV2p-W18 有时性能比 ResNet-50 差外，整体性能优于 ResNet。在 Mask 方面对小物体（APS）的改进也比中（APM）和大物体（APL）显着。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

消融研究

对 HRNet 中的模块进行消融研究，涉及两个任务：人体姿势估计和语义分割。我们主要使用 HRNetV1-W32 进行人体姿势估计，使用 HRNetV2-W48 进行语义分割。

5.1 不同分辨率的特征图对结果的影响

从不同分辨率的特征图估计的热图的质量从高到低，研究不同分辨率的特征图如何影响人体姿态估计性能。作者训练了两个 HRNetV1 网络。网络输出从高到低分辨率的四个特征图，最低分辨率特征图上的热图预测质量太低，AP 分数低于 10 分。下图报告了其他三个特征图的 AP 分数。实验表明，分辨率确实会影响关键点预测质量。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

▲ 图6. 1×，2×，4×分别对应于高分辨率，中分辨率和低分辨率

5.2 重复多分辨率融合对结果的影响

作者分析了重复多分辨率融合的效果，研究了网络的三种变体。（a）无中间融合模块：多分辨率支路之间除了最终融合模块外没有融合。（b）跨阶段融合单元：每个阶段内的相同分辨率支路之间没有融合。（c）跨阶段阶段和内融合模块：这是 HRNet 的结构。

所有网络均从零开始进行培训。下表中给出的关于 COCO 人体姿态估计和 Cityscapes 语义分割的结果表明，多分辨率融合模块很有帮助，并且更多的融合会带来更好的性能。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

5.3 分辨率保持对于结果的影响

作者针对最后将低分辨率特征图与高分辨率特征图融合做了对比试验。结果表明 HRNetV2 的低分辨率并行卷积中聚合表示对于提高准确度至关重要。对比结果如下图所示。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

▲ 图7. （a）在Cityscapes和 PASCAL-Context上进行语义分割（b）在COCOval上进行目标检测

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

总结

在本文中，作者提出了用于视觉识别问题的高分辨率网络（HRNet）。与现有的低分辨率分类网络和高分辨率特征学习网络存在三个根本区别：（i）并行连接高分辨率和低分辨率卷积，而不是串联连接；（ii）在整个过程中保持高分辨率，而不是从低分辨率中恢复高分辨率；（iii）重复融合多分辨率表示。

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

参考文献

TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

[1]. Wang J, Sun K, Cheng T, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2020.

[2]. He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[3]. Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.

[4]. Zhang H, Wu C, Zhang Z, et al. Resnest: Split-attention networks[J]. arXiv preprint arXiv:2004.08955, 2020.

[5]. Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

[6]. Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.

[7]. Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, Cham, 2014: 740-755.

[8]. Mottaghi R, Chen X, Liu X, et al. The role of context for object detection and semantic segmentation in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 891-898.

[9]. Cordts M, Omran M, Ramos S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 3213-3223.

[10]. Gong K, Liang X, Zhang D, et al. Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 932-940.

[11]. Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.

[12]. Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation[C]//European conference on computer vision. Springer, Cham, 2016: 483-499.

[13]. Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.

[14]. Cai Z, Vasconcelos N. Cascade r-cnn: Delving into high quality object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6154-6162.

更多阅读