论文阅读:Learning to Segment Object Candidates(DeepMask)
1 摘要
最近目标检测一般需要依赖于2个关键步骤:(1)尽可能有效率地提取目标proposals。(2)对提取到地这些proposals进行分类。与上面的不同,作者提出一个新网络结构DeepMask:通过一个网络分成两条不同路径,一条路径输出目标分割的mask;另一条路径输出对目标的预测分数。作者提出的该超过了目标propasal算法的最好效果。对比于先前的方法,作者的方法能够使用更少的proposal获得更高的召回率。
2 亮点
2.1 DeepMask结构
作者先使用在ImageNet上训练好的VGG-A网络(包含8个3*3的卷积层,5个2x2的max-pooling层,这里去掉最后一个max-pooling层)进行特征提取得到512x14x14的特征图,如下图:
对于512x14x14的特征图,网络分成两条路线:
① 通过1x1卷积层得到目标热度图,再进行双线性插值上采样得到Mask图。
② 经过一个2x2的池化层再经过全连接层得到每一类目标分数的预测。
2.2 损失函数
由于存在两条线路,因此联合损失函数是由两部分组成的,如下:
其中,为像素点位置的预测;为预测的分数。此外,在测试推理阶段,网络会尝试对所有的图块都进行分割,即使该图块中不存在目标,也要进行分割。因此,对于不存在目标的图块,只训练分割分支。如下图:
绿色框框代表这个物体存在,也就是不为0分割结果;而如果为0,说明物体不存在,那么只训练分割分支得到的就是红色框框的结果。
3 部分结果
3.1 分割的数据对比
上图为DeepMask系列与其它网络结构在MS COCO数据集上的对比结构。
3.1 分割的效果对比
上图为DeepMask在COCO数据集的Mask分割结果。
4 结论
本文提出的用于目标检测的新的网络架构,是一个实例分割的架构,mask的分割类似于语义分割,而分数的预测则是目标检测,将二者进行了一定的融合,其存在一定的优势和劣势。
4.1 优势
① 使用更少的proposals获取更高的召回率。
② 实现了前背景分割(擦除背景,选出感兴趣区域作为proposals)、前景语义分割(类似于语义分割将目标用mask划分出来)与前景实例分割(对用mask划分的目标进行分类),这三个任务是基于同一个网络结构进行的,只是各自有单独的分支。
③ 推理速度较快,在COCO数据集中平均推理一张图片1.6s,而小一点的PASCAL数据集则平均1.2s。
4.2 不足
① DeepMask虽然参考了像语义分割对目标的像素进行一定的分类,但是mask能捕捉一个物体大致外形,却不能准确捕捉物体边界。
5 参考资料
(1)论文链接:https://arxiv.org/abs/1506.06204
(2)论文精读 Learning to Segment Object Candidates(一)
(3)【图像分割模型】实例分割模型—DeepMask