论文阅读:Learning to Segment Object Candidates(DeepMask)

1 摘要

最近目标检测一般需要依赖于2个关键步骤:(1)尽可能有效率地提取目标proposals。(2)对提取到地这些proposals进行分类。与上面的不同,作者提出一个新网络结构DeepMask:通过一个网络分成两条不同路径,一条路径输出目标分割的mask;另一条路径输出对目标的预测分数。作者提出的该超过了目标propasal算法的最好效果。对比于先前的方法,作者的方法能够使用更少的proposal获得更高的召回率。

2 亮点

2.1 DeepMask结构

作者先使用在ImageNet上训练好的VGG-A网络(包含8个3*3的卷积层,5个2x2的max-pooling层,这里去掉最后一个max-pooling层)进行特征提取得到512x14x14的特征图,如下图:
论文阅读:Learning to Segment Object Candidates(DeepMask)
对于512x14x14的特征图,网络分成两条路线:
① 通过1x1卷积层得到目标热度图,再进行双线性插值上采样得到Mask图。

② 经过一个2x2的池化层再经过全连接层得到每一类目标分数的预测。

2.2 损失函数

由于存在两条线路,因此联合损失函数是由两部分组成的,如下:
论文阅读:Learning to Segment Object Candidates(DeepMask)
其中,fsegmij(xk)f^{ij}_{segm}(x_k)为像素点(ij)(i,j)位置的预测;fscore(xk)f_{score}(x_k)为预测的分数。此外,在测试推理阶段,网络会尝试对所有的图块都进行分割,即使该图块中不存在目标,也要进行分割。因此,对于不存在目标的图块,只训练分割分支。如下图:
论文阅读:Learning to Segment Object Candidates(DeepMask)
绿色框框代表这个物体存在,也就是fscore(xk)f_{score}(x_k)不为0分割结果;而如果fscore(xk)f_{score}(x_k)为0,说明物体不存在,那么只训练分割分支得到的就是红色框框的结果。

3 部分结果

3.1 分割的数据对比

论文阅读:Learning to Segment Object Candidates(DeepMask)
上图为DeepMask系列与其它网络结构在MS COCO数据集上的对比结构。

3.1 分割的效果对比

论文阅读:Learning to Segment Object Candidates(DeepMask)
上图为DeepMask在COCO数据集的Mask分割结果。

4 结论

本文提出的用于目标检测的新的网络架构,是一个实例分割的架构,mask的分割类似于语义分割,而分数的预测则是目标检测,将二者进行了一定的融合,其存在一定的优势和劣势。

4.1 优势

① 使用更少的proposals获取更高的召回率。

② 实现了前背景分割(擦除背景,选出感兴趣区域作为proposals)、前景语义分割(类似于语义分割将目标用mask划分出来)与前景实例分割(对用mask划分的目标进行分类),这三个任务是基于同一个网络结构进行的,只是各自有单独的分支。

③ 推理速度较快,在COCO数据集中平均推理一张图片1.6s,而小一点的PASCAL数据集则平均1.2s。

4.2 不足

① DeepMask虽然参考了像语义分割对目标的像素进行一定的分类,但是mask能捕捉一个物体大致外形,却不能准确捕捉物体边界。

5 参考资料

(1)论文链接:https://arxiv.org/abs/1506.06204
(2)论文精读 Learning to Segment Object Candidates(一)
(3)【图像分割模型】实例分割模型—DeepMask