HRNet-王井东报告学习

随着CNN网络的提出，CNN在计算机视觉领域里取得极大的成功
HRNet-王井东报告学习
CNN网络结构从提出到现今，在网络结构上也经历了一些变化，变化主要体现在深度和宽度这两个维度上。

王井东团队在高分辨率维度上做出改进，既追求在过程中保持高分辨率

回顾之前的网络结构设计，主要沿袭LeNet的设计思想，既输入一张高分辨图片，然后在高分辨率上做卷积–>中等分辨率上做卷积–>低分辨率上做卷积这么一个串联的过程。
HRNet-王井东报告学习
这种设计思想很不错，在图像分类领域里取得非常好的成果,但在计算机视觉里面，除了图片分类以外，还有目标检测，语言分割，人脸对齐，人体姿势估计等领域，这些领域对空间相关信息比较敏感。

比如人体姿势估计，我们输入一张图片，然后输出一张由一些关节点连线形成的姿势估计。
HRNet-王井东报告学习
目前主流的一些方法，实际上需要估计一个中间过程，中间会产生一个hidden map。在这个map上，会给每个像素分配一个值，这个值代表这个像素属于哪个keypoint的概率。

实际上这个过程，需要一个很大的hidden map，所以像这一类任务其实是需要高分辨表征的。
HRNet-王井东报告学习
由于需要高分辨率表征，现在的一些主流方法是先通过一个识别网络（下图的左半部分）得到一个低分辨率的特征图，然后再通过上采样或者其他一些手段再恢复到高分辨率（下图右半部分）。

这样的网络设计由很多经典的网络结构
HRNet-王井东报告学习
这类网络实际实际上有一个缺点，它们都是从高分辨率到低分辨率再到高分辨率这么一个过程，这个过程中其实会损失很多空间信息。我们的研究与现有方法差别在于，现有方法主要恢复高分辨率，而我们的研究是让它在过程中一直保持高分辨率。
HRNet-王井东报告学习
其实提出的网络结构也比较简单，传统的网络结构是串联方式：
我们提出一个并联的网络结构，把不同分辨率并联起来，并在不同分辨率层之间做交互

交互方式如下：

总结一下，我们的改变有三个点：

以往的网络结构是串联方式，我们把它变成并联。
以往是先降为低分辨率再恢复高分辨率，我们是一直保持高分辨率
我们通过不同分辨率之间的交互，提高网络性能

我们的实验网络结构如下

HRnet代码已经开源，并且团队在多个领域内也做了实验，大多取得了非常好的表现，可在官方github主页查询，下图中的二维码表示对于领域的GitHub链接

HRNet-王井东报告学习

相关推荐