Weakly Supervised Instance Segmentation using Class Peak Response阅读笔记

Weakly Supervised Instance Segmentation using Class Peak Response

目前技术空缺

目前大部分弱监督下的实例分割技术需要大范围像素级的标注去训练深度神经网络,然而这种方法往往耗费大量人力物力[1]。相比之下,普通的图像分类卷积神经网络的训练,只需要简单的图像级的类别标注,即图像中有没有要求范围内的物体类别,这种操作更为简单方便。然而目前并没有仅依赖图像级标注的实例分割方法,即便在任务实现相对容易的语义分割技术中,也很少有仅依赖于此的方法。

目前存在的大部分弱监督下的语义分割技术将CNN中的卷积核作为物体检测器并且聚集深度特征图提取类感知的视觉证据[2][3],典型的网络有FCN全卷积网络,它能够实现像素级的分类,但是却无法实现实例分割。因此现有的若监督语义分割方法无法被简单的泛化为既能够准确识别出图片中所有的物体又能够对每个实例进行准确标注的实例级语义分割方法。

灵感来源

输入图片经过全卷积分类器后,可以产生类相应图,它指定每个图像位置的分类置信度。论文发现,在类响应图中的某些区域的最大值通常反映了隐藏在每个实例图像中的强视觉线索。

论文研究

论文通过利用类峰值响应来解决这个具有挑战性的问题—使用图片级的弱监督训练CNN以实现实例级的语义分割。

论文工作

首先,在训练阶段,设计一个过程来刺激峰值从类反应图出现。在测试阶段,出现的峰值被反向传播并有效地映射到每个对象实例的高度信息区域,例如实例边界。从峰值响应生成的上述映射被称为峰值响应图(PRMs)。如下图所示:
Weakly Supervised Instance Segmentation using Class Peak Response阅读笔记
PRMs作为实例级表示,它很好的确定了每个对象的空间布局和详细的边界,从而使实例掩码提取可以基于一些非现成的方法。

论文贡献

(1)论文作者观察到,类响应图中的峰值通常对应于驻留在每个相应实例内的强视觉线索,并且这种简单的观察导致了一种有效的弱监督实例分割技术。
(2)论文建议借助类峰值响应使分类网络具有实例掩模提取的能力。论文首先激发峰值从一级响应图出现后将其传播到特征图的每一个对象实例内容丰富的地区,如实例的边界。
(3)论文将提出的方法应用到流行的神经网络如,vgg16和resnet50中,并在多个基准测试中表现最了佳性能。据论文作者所知,论文第一个实现图片级的弱监督实例分割任务。
具体细节:
整个网络的结构如下图:
Weakly Supervised Instance Segmentation using Class Peak Response阅读笔记
(1)全卷积结构
首先将CNN修改为FCN,作为基线网络。
(2)峰值刺激
在全卷积网络的最上层,加入了峰值刺激层,目的是为了刺激峰值从类响应图中凸显。论文通过公示证明说明了峰值刺激因此它可以防止大量的轻易否定因素在训练网络期间压倒学习到的表现形式。使用峰值刺激的效果如下图所示:
Weakly Supervised Instance Segmentation using Class Peak Response阅读笔记
(3)峰值回传
论文提出了峰值的概率反向传播过程,以进一步生成精细的实例感知表征,即峰值响应图。与之前自上而下的注意力模型[4][5]寻找输出类别中最相关的神经元以生成类感知注意力图不同,论文的方法明确地考虑了感受野,并且可以提取实例感知的视图。来自特定空间位置的提示线索,即类别峰值响应。
使用峰值概率回传,在自上而下的过程中论文可以为每一个类峰值响应定位对应的空间位置,并且产生精细的实例感知上的视觉线索。PRMs如下图所示:
Weakly Supervised Instance Segmentation using Class Peak Response阅读笔记
(4)弱监督实例分割
论文中综合了峰值响应图包含的实例感知线索、类响应图中类感知线索和现成的物体提议方法[6][7]。来实现实例分割任务。具体公式如下图所示:
Weakly Supervised Instance Segmentation using Class Peak Response阅读笔记
公式中,R代表着对应类峰值响应的PRM,是由形态梯度方法计算的建议区域S对应的轮廓掩模,Q是由类响应图获得的背景掩模。在验证集上选择类独立的*参数α和β。在上式中,实例感知项促进了提议区域与PRM的最大化重叠,而边界感知项利用PRM内的精细的边界信息来选择具有相似形状的提议区域。 此外,类感知项使用类响应来抑制与类无关的区域。

论文效果

Weakly Supervised Instance Segmentation using Class Peak Response阅读笔记
论文效果如上图所示,从图中可以看到,论文的方法可以产生高质量的视觉线索,并在许多具有挑战性的场景中获得不错的实例分割结果。在第一列和第二列中,它可以区分它们彼此闭合或遮挡的情况。第三和第四列中的示例表明它可以很好地处理来自不同视觉尺度的物体。在第五列中,来自不同类的对象被很好地分割,这表明所提出的方法可以从分类网络中提取类辨别和实例感知视觉线索。
论文的方法简单而有效,它与任何现代网络体系结构兼容,并且可以使用标准分类设置来训练,例如,图像类别标签和交叉熵损失,具有可忽略的计算开销。并且,由于其训练效率很高,论文的方法非常适合于大规模数据的应用。

模型不足

对于弱监督系统而言,PRM可能会被嘈杂的共现模式误导,并且有时会在区别对象部件和多个对象之间的差异时出现问题。论文原本使用了MCG提议进行物体先验信息的增加,MCG包含了有助于实例分割的精细的物体边界提议信息。为了改进,论文通过提议检索步骤来解决这个问题,然而,表现仍然受到提议质量的限制。

论文总结

论文提出了一种简单有效的技术改进分类网络执行实例分割任务。基于类峰值响应,峰值刺激能够有效加强对象定位,而峰值的反向传播为每个实例提取精细的视觉线索。论文首次报告了图像级监督实例分割的结果。基本的事实是,实例感知的线索能够自然地通过卷积滤波器被学习到。发现这些线索为弱监督的实例级问题提供了新的视角。

参考文献

[1] T. Lin, M. Maire, S. J. Belongie, J. Hays, P. Perona, D. Ra- manan, P. Dolla ́r, and C. L. Zitnick. Microsoft COCO: com- mon objects in context. In European Conference on Com- puter Vision (ECCV), pages 740–755, 2014.
[2] B.Zhou,A.Khosla,A`.Lapedriza,A.Oliva,andA.Torralba. Learning deep features for discriminative localization. In IEEE Conference on Computer Vision and Pattern Recog- nition (CVPR), pages 2921–2929, 2016.
[3] J. Zhang, Z. L. Lin, J. Brandt, X. Shen, and S. Sclaroff. Top- down neural attention by excitation backprop. In European Conference on Computer Vision (ECCV), pages 543–559, 2016.

[4] J. Zhang, Z. L. Lin, J. Brandt, X. Shen, and S. Sclaroff. Top- down neural attention by excitation backprop. In European Conference on Computer Vision (ECCV), pages 543–559, 2016.
[5] J.K.Tsotsos,S.M.Culhane,W.Y.K.Wai,Y.Lai,N.Davis, and F. Nuflo. Modeling visual attention via selective tuning. Artificial intelligence, 78(1-2):507–545, 1995.
[6] J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, and A. W. M. Smeulders. Selective search for object recog- nition. International Journal of Computer Vision (IJCV), 104(2):154–171, 2013.
[7] J. Pont-Tuset, P. Arbelaez, J. T. Barron, F. Marque ́s, and J. Malik. Multiscale combinatorial grouping for image seg- mentation and object proposal generation. IEEE Trans. Pat- tern Anal. Mach. Intell., 39(1):128–140, 2017.