Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020

Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate for RGB-D Semantic Segmentation_ECCV2020

这篇论文是eccv2020的。第一作者是北大信息科学技术学院的,主攻方向就是RGBD语义分割。第二个作者是商汤科技的。

摘要

motivation:大多数现有的工作只是假设深度测量是准确的,并与RGB像素很好地对齐,并将问题建模为跨模态特征融合,以获得更好的特征表示来实现更精确的分割。 然而,这可能不会导致令人满意的结果,因为实际的深度数据通常是noisy的,这可能会随着网络的深入恶化准确性。
方法: 在本文中提出了一种统一而高效的交叉模态引导编码器,不仅可以有效地重新校准RGB特征响应,而且还可以通过多重阶段来提取精确的深度信息 并交替聚合两个重新校准的特征。所提出的体系结构的关键是一种新的
Separation-and-Aggregation Gating操作,它在交叉模态聚合之前,共同筛选和重新校准这两种表示。同时,介绍了一种双向多步传播策略
Bi-direction Multi-step Propagation strategy ,以帮助在这两种模态之间传播和融合信息,另一方面,保持它们在长期传播过程中的特异性。 此外,我们提出的编码器可以很容易地注入到以前的编码器解码器结构,以提高他们的性能。

Introduction

我们都知道深度信息确实可以辅助RGB信息进行语义分割,弥补RGB语义分割的一些不足,但是在用深度信息辅助可见光语义分割的时候存在两个挑战
第一个是RGB模态和深度模态之间的巨大差异, 如何有效地识别它们的差异,并将这两种类型的信息统一为有效的表示仍然是一个开放的问题。
第二个是深度测量时候的不确定性。由于不同的物体材料和有限的距离测量范围,深度测量通常是有噪声的,这个问题在室外的场景中尤为突出。
针对上述两个问题,本文提出了跨模态的encoder,关键思想是先抑制低质量深度信息的特征,然后利用被抑制的特征来细化RGB特征。而实际情况中RGB数据也包含噪声,比如拥有相似外观的不同物体。因此RGB特征和深度特征都需要重新校准。
因此,本文首先提出SA-Gate来通过鼓励网络重新校准和突出每个模式的特定模式特征提高多模态表示的质量, 然后有选择地从这两种模态中聚合信息特征,以便最终分割。(在这我认为SA-Gate的任务就是先校准,再融合)
另外,为了有效地利用这两种模式之间的特征差异,本文提出了双向多步传播策略, 鼓励这两个流在编码器阶段的信息交互过程中更好地保持它们的特异性。
contributions: 因此本文的贡献主要就是:利用所提出的SA-Gate和BMP模块,有效地减少深度测量中噪声的影响,并允许利用足够互补的信息,形成用于分割的判别表示。

Method

整体架构:
Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020
给定RGB-D数据作为输入,编码器通过SA-Gate单元重新校准和融合两种模态的互补信息,然后通过双向多步传播模块将融合的多模态特征沿着特定模态特征传播,通过解码器生成分割图。
SA-Gate:
Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020
在特征的重新校准阶段,首先将两种特征进行concat,然后做个全局平均池化,再接着做了MLP操作之后经过sigmod归一化得到了注意力向量。然后,在输入深度特征图和注意力向量之间进行channel-wise的乘法,可以得到一个较少噪声的深度表示,也就是filteredHHA。然后将filtered特征加入到另一模态原特征上可以得到重新校准后的RGB和深度特征。下图是校准前后的特征。
Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020
在特征的聚合阶段,RGB和D特征是相互强烈互补的。本文在聚合部分利用了前面得到的校准后的特征,然后首先将两个特征连接,然后定义了两个映射函数,将高维特征映射到两个不同的spatial-wise gates,实际情况中这两个映射函数是1*1卷积,然后对两个门进行softmax处理得到RGB特征和深度特征中每个位置赋予的权重。最终合并之后的特征就是各自模态的加权特征之和。那么最终两个模态的输出特征就是将融合的特征和原始输入进行平均来获得。
BMP:
BMP, 其实就是将合并后的特征传入两个分支,这是一个双向传播过程,细化的结果将传播到编码器的下一层,对这两种模态进行更准确和有效的编码。

实验

Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020
消融实验:
Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020
即插即用实验:
Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020
和其他实验的比较
Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020
这篇文章实验做得比较多,感兴趣的请参考原文。