[深度学习论文笔记][CVPR 18]Path Aggregation Network for Instance Segmentation
[CVPR 18]Path Aggregation Network for Instance Segmentation
Shu Liu, Lu Qi, Haifang Qin, Jianping Shi and Jiaya Jia
from
CUHK, Peking University, Sensetime & YouTu Lab
Motivation
本文提出了名为PANet的网络结构,用于物体检测(object detection)和实例分割(instance segmentation)任务。该网络基于FPN[1]和Mask RCNN[2]模型之上提出了三点创新,显著地提升了模型在物体检测和实例分割网络上的性能:
- PANet改进了主干网络结构,加强了特征金字塔的结构,缩短了高低层特征融合的路径;
- 提出了更灵活的RoI池化。之前FPN的RoI池化只从高层特征取值,现在则在各个尺度上的特征里操作;
- 预测mask的时候使用一个额外的fc支路来辅助全卷积分割支路的结果。
网络的结构图如下所示,三个创新点对应的结构变化已经在图中标出:
PANet在COCO 17实例分割竞赛中取得了第一名的成绩,在检测任务中取得了第二的成绩。
Method
Bottom-up Path Augmentation
FPN的网络结构如下图所示:
PANet的主干网络与FPN不同之处在于新构建的N2~N5卷积。从Ni层到Ni+1层的细节结构如下图所示,其中的融合操作是逐像素加和:
构建该新支路的优势在于缩短了底层尺寸大的特征到高层尺寸小的特征之间的距离,让特征融合更加有效。其变化可以参考网络结构图中红色(原FPN特征融合路径)和绿色(PANet特征融合路径)虚线。绿色虚线所跨越的卷积层会更少。
Adaptive Feature Pooling
在FPN中,作者根据RoI的尺寸大小来决定在P2~P5的某个层上取特征,且尺寸越大所操作的特征越高,如下图所示:
这篇文章的作者认为高低层特征各有其优势。高层特征的视野域更大,小的RoI可以在这些特征上获取更丰富的上下文信息。低层特征可以帮助大的proposal更好地定位。这里提出的池化方法则是在所有尺度的特征上操作,之后进行融合,如下图所示:
Fully-connected Fusion
作者认为全连接层与全卷积的网络相比能更好地获取尺度更大的信息,有助于区分两个不同的实例或者一个实例的不同部位。其本质是全连接层是卷积核更大的卷积操作,因此能获得更大的视野域。
在实现过程中,作者将RoI操作结果拉伸到28x28的尺寸,之后使用全连接操作得到784x1x1的前背景二分类结果,其中784=28x28。将该分割结果与全卷积得到的分割结果融合,即得到最终的分割结果。
Experiments
COCO
PANet在COCO 2016数据集上的实例分割和物体检测性能如下所示,其中ms-train指的是使用多尺度的输入图像进行训练:
同时在COCO数据库上作者也做了相近的对比试验,以验证各个模块的有效性:
Cityscapes & MVD
作者在Cityscapes和MVD数据库上也测试了实例分割的性能,都有不错的效果。结果如下图所示,其中test tricks指的是测试阶段使用所尺度图片、图片翻转、mask投票和box投票等:
Reference
[1] T. Lin, P. Dollar, R. B. Girshick, K. He, B. Hariharan, and S. J. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
[2] K. He, G. Gkioxari, P. Dollar, and R. B. Girshick. Mask R-CNN. In ICCV, 2017.