论文阅读：Learning to Segment Object Candidates（DeepMask）

文章目录

1 摘要
2 亮点

2.1 DeepMask结构
2.2 损失函数

3 部分结果

3.1 分割的数据对比
3.1 分割的效果对比

4 结论

4.1 优势
4.2 不足

5 参考资料

1 摘要

最近目标检测一般需要依赖于2个关键步骤：（1）尽可能有效率地提取目标proposals。（2）对提取到地这些proposals进行分类。与上面的不同，作者提出一个新网络结构DeepMask：通过一个网络分成两条不同路径，一条路径输出目标分割的mask；另一条路径输出对目标的预测分数。作者提出的该超过了目标propasal算法的最好效果。对比于先前的方法，作者的方法能够使用更少的proposal获得更高的召回率。

2 亮点

2.1 DeepMask结构

作者先使用在ImageNet上训练好的VGG-A网络（包含8个3*3的卷积层，5个2x2的max-pooling层，这里去掉最后一个max-pooling层）进行特征提取得到512x14x14的特征图，如下图：
论文阅读：Learning to Segment Object Candidates（DeepMask）
对于512x14x14的特征图，网络分成两条路线：
① 通过1x1卷积层得到目标热度图，再进行双线性插值上采样得到Mask图。

② 经过一个2x2的池化层再经过全连接层得到每一类目标分数的预测。

2.2 损失函数

由于存在两条线路，因此联合损失函数是由两部分组成的，如下：
论文阅读：Learning to Segment Object Candidates（DeepMask）
其中， $f^{ij}_{segm}(x_k)$ 为像素点 $(i，j)$ 位置的预测； $f_{score}(x_k)$ 为预测的分数。此外，在测试推理阶段，网络会尝试对所有的图块都进行分割，即使该图块中不存在目标，也要进行分割。因此，对于不存在目标的图块，只训练分割分支。如下图：
论文阅读：Learning to Segment Object Candidates（DeepMask）
绿色框框代表这个物体存在，也就是 $f_{score}(x_k)$ 不为0分割结果；而如果 $f_{score}(x_k)$ 为0，说明物体不存在，那么只训练分割分支得到的就是红色框框的结果。

3 部分结果

3.1 分割的数据对比

论文阅读：Learning to Segment Object Candidates（DeepMask）
上图为DeepMask系列与其它网络结构在MS COCO数据集上的对比结构。

3.1 分割的效果对比

论文阅读：Learning to Segment Object Candidates（DeepMask）
上图为DeepMask在COCO数据集的Mask分割结果。

4 结论

本文提出的用于目标检测的新的网络架构，是一个实例分割的架构，mask的分割类似于语义分割，而分数的预测则是目标检测，将二者进行了一定的融合，其存在一定的优势和劣势。

4.1 优势

① 使用更少的proposals获取更高的召回率。

② 实现了前背景分割（擦除背景，选出感兴趣区域作为proposals）、前景语义分割（类似于语义分割将目标用mask划分出来）与前景实例分割（对用mask划分的目标进行分类），这三个任务是基于同一个网络结构进行的，只是各自有单独的分支。

③ 推理速度较快，在COCO数据集中平均推理一张图片1.6s，而小一点的PASCAL数据集则平均1.2s。

4.2 不足

① DeepMask虽然参考了像语义分割对目标的像素进行一定的分类，但是mask能捕捉一个物体大致外形，却不能准确捕捉物体边界。

5 参考资料

（1）论文链接：https://arxiv.org/abs/1506.06204
（2）论文精读 Learning to Segment Object Candidates（一）
（3）【图像分割模型】实例分割模型—DeepMask