Panoptic Segmentation阅读总结

Panoptic Segmentation阅读总结

简介

文章提出了一个新的概念-全景分割。传统任务中语义分割是对图像中的所有像素分类,实例分割是对图像中的实例级目标进行检测和分割,而全景分割是对这两个任务的统一。这种统一是自然而然的,但是也带来了算法挑战。文章还为全景分割的评估定制了标准Panoptic Quality(PQ),这个标准具备简单可解释性。使用PQ标准,文章还在目前存在全景分割标注的数据集上测试了人类的分割质量,有助于更好的理解该任务。文章同样使用了一个简单的方法将实例和语义分割输出结合为最后的全景分割输出,并与人类的表现作对比。在未来图像分割和视觉识别领域,全景分割都可以作为一个基本的任务存在,该文章呼吁大家能关注并探索该任务。

1.引文

      在计算机视觉的早些时期,可数物体(things 如人、动物等)获得了很多关注,除了这个关注点,后续不可数物体(stuff,如天空、海水等)也获得了必要关注,这种将可数和不可数分别关注的现象持续至今。一些相关任务如下图1所示.

Panoptic Segmentation阅读总结

(b)所示的语义分割是将图像中的所有当做stuff不可数,对各个像素进行语义分类,而关注things的任务一般为目标检测或实例分割,对可数物体进行检测和掩模分割,两个任务虽然看起来相似,但是使用的数据集、操作细节以及机制都有很大不同。这种不同,使得things和stuff的分割任务向平行线一样分裂,语义分割通常使用全卷积网络,然而物体检测通常使用物体提议并且是基于区域的。即便这两个任务在过去几年内发展迅速,但仍然忽略了一些重要的事情即全景分割。

文章探索将实例分割和语义分割融合到一起的方法,称为全景分割。全景分割即全局统一的分割,具体是图像中的每个像素都被分配语义类别和实例id,具有相同的语义类别和实例id的像素属于同于物体,对于stuff的实例id被忽略,如图1(d)所示。全景分割与语义分割和实例分割的一些不同点:全景分割需要输出实例id,这对全卷积网络带来挑战;全景分割要求实例间是不重叠的,这对在每个实例上单独分割的基于区域的实例分割带来挑战。此外,该任务要求同时识别thing和stuff类,需要定制一个简洁的端到端的全景分割系统,这也是需要创新的点。

文章也制定了新的全景分割机制,基于完整、可解释和简单的思想,指定了Panoptic Quality(PQ)全景质量,可以被分解为分割质量(SQ)和检测质量(DQ)两部分。为了直观的看到PQ,文章还进行了人工表现的测试,来更好的感受机器分割质量。文章使用启发式后端融合(一种常用的非极大值抑制方式)将两个语义分割结果和实例分割结果融合为全景分割结果。

2.相关工作

      文章强调全景分割并不是多任务问题,而是图像分割的统一视图。

3.全景分割

文章的PQ是在各个不同类别上计算并平均的,这样会使PQ对类别不均衡不敏感。PQ = SQ *DQ,其中SQ和DQ是不独立的,因为SQ只在匹配物体上进行计算。

4.人工全景分割质量研究

      研究人工分割质量的目的是为了直观地标杆机器标注的质量。

Panoptic Segmentation阅读总结

Panoptic Segmentation阅读总结

            从上表看出实例级物体的分割更具难度。

Panoptic Segmentation阅读总结

从该图看出实例级和非实例级的物体的PQ分布相当均衡,这意味着PQ这个评价指标对于二者一视同仁不会出现实例和非实例级一方主导错误。

Panoptic Segmentation阅读总结

      该表显示对于大物体的检测和分割效果都很好,对于小物体比较难注意到,但一旦注意到,其分割效果也很好。

Panoptic Segmentation阅读总结

该图示意使用不同的IoU阈值的PQ效果,最终决定使用0.5

Panoptic Segmentation阅读总结

5.机器性能基线

文章还给出了简单的机器性能的基线,文章关注两个问题:启发式结合的效果和机器性能与人工性能的比较。

文章中对目前实例分割和语义分割最先进的网络,分别是Mask R-CNN[1]和PSPNet[2]输出进行启发式融合,值得注意的是,文章使用的基线很强大,因此在未来有关全景分割的文章中,使用更简单的基线的全景分割性能作为比较可能会更加公平。

实例分割

      实例分割会生成重叠的分割,为了测量PQ,必须先解决这些重叠,文章是使用了一个简单的非极大值抑制流程,即对于重叠部分,选取分割得分较高的保留。对于每一个实例,首先移除分配给前一段的像素,然后,如果有足够的一部分仍然存在,则接受不重叠部分,否则放弃整个。所有的阈值都是通过网格搜索确定的,这是为了获得最佳的PQ。表4示意了实例分割的机器性能。

Panoptic Segmentation阅读总结

语义分割

      语义分割不存在重叠,因此可以直接与PQ比较,表5示意。

Panoptic Segmentation阅读总结

全景分割

首先通过非极大值抑制解决实例分割的重合问题,然后通过首选thing类别,去解决在合并实例分割和语义分割结果时的部分像素类别冲突问题。虽然这种启发式的方法不是最佳的,但是足够建立一个基线。图6示意全景分割中的PQst和PQth及单任务的表现

Panoptic Segmentation阅读总结

因为遇到冲突像素类别时,选择使用thing类别,因此PQth一致而PQst降低。全景分割的可视化如图9所示。

Panoptic Segmentation阅读总结

人工vs机器

下表7中比较了人工性能和机器性能。

Panoptic Segmentation阅读总结

可以看到,在分割质量方面相差不大,但是在检测质量上差别很大,这也是目前全景分割方法面临的主要挑战。总体上,机器质量远差于人工质量。文章作者希望后续研究关注到这一点。

6.全景分割的未来

      文章讨论了一些未来可能的方向和下一步计划,主要有以下两点:(1)深度整合的端到端模型实现全景分割,目前也有很多实例分割方法提出了解决重合问题的方法[3,4,5]。(2)由于PS不能存在重合部分,某些高级的推导形式可能更有利,比如,建立在扩展的可学习的NMS上。

7.参考文献 

[1] K. He, G. Gkioxari, P. Dolla ́r, and R. Girshick. Mask R- CNN. ICCV, 2017. 1, 2, 7

[2] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In CVPR, 2017. 7

[3] S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequen- tial grouping networks for instance segmentation. In CVPR, 2017. 8

[4] A. Arnab and P. H. Torr. Pixelwise instance segmentation with a dynamically instantiated network. In CVPR, 2017. 8

[5] M. Bai and R. Urtasun. Deep watershed transform for in- stance segmentation. In CVPR, 2017. 8