深度学习——Bidirectional Aggregation Network

CVPR2020论文:BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation
1.主要内容:
提出了双向融合的全景分割网络方案,即Instance-To-Semantic (I2S) 和Semantic-To-Instance (S2I)两个方向,使得语义分割和实例分割之间进行特征交流。
运用ROIInlay算子实现了Instance-To-Semantic (I2S)的精确特征映射。
提出了一种简单有效的方法去解决重叠区域的问题,该方法无需学习,且能嵌入任何基于自上而下的网络。

2.问题的提出:全景分割要求同时实现 1) 前景的实例分割 和 2)背景的语义分割 。经典的自上而下的网络(先识别,再分配标签)主要集中解决两个问题:a.正确处理实例分割和语义分割的内在关联 b.正确处理全景分割过程中重叠交叉的图像区域。

在原则上,语义分割任务与实例分割任务之间存在互补关系。
语义分割集中于捕获丰富的像素级信息,用于场景理解。这些信息可以为实例分割提供有用的上下文线索来丰富特征信息。
相反,实例分割获得了对象实例上的结构信息(如形状),这些信息能提高语义分割对于特征信息的识别能力。

因此,Bidirectional Aggregation NETwork(BANet)采用Instance-To-Semantic (I2S) 和 Semantic-To-Instance (S2I)双向学习的方案。S2I将语义分割的上下文特征信息传递到实例分割中,以进行对象实例的定位和识别。同时,I2S将实例分割的结构信息反馈到语义分割中,以提高语义特征的识别能力。
深度学习——Bidirectional Aggregation Network
2.主体结构:
深度学习——Bidirectional Aggregation Network
主要由四部分组成:基础主干网络(FPN); S2I ; I2S ; occlusion handling module

a)基础主干网络(FPN)主要提取不同尺度范围的语义信息【Feature Pyramid Networks for Object Detection, Tsung-Yi Lin, 2017】

b)Semantic-To-Instance (S2I)