Abstract

本文通过基于自注意机制的丰富上下文依赖关系的捕获来解决场景分割任务。与以往通过多尺度特征融合捕获上下文的工作不同，我们提出了一种双关注网络（DANET）来自适应地将局部特征与其全局依赖性集成。
我们在扩展的FCN之上附加了两种类型的注意模块，分别对空间维度和通道维度的语义依赖性进行建模。
位置注意模块通过所有位置的特征加权和选择性地聚合每个位置的特征。无论距离如何，相似的特征都会相互关联。
信道注意模块通过在所有信道图中集成相关特征，选择性地强调相互依赖的信道图。

Introduction

为了有效地完成场景分割的任务，我们需要区分一些混淆的类别，并考虑不同外观的对象。最近，提出了基于全卷积网络（fcns）的最新方法来解决上述问题。
一种方法是利用多尺度的上下文融合。一些工作通过组合由不同的扩展卷积和池操作生成的特征映射聚合多尺度上下文。一些工作通过使用分解结构扩大内核大小或在网络顶部引入有效的编码层来捕获更丰富的全局上下文信息。尽管上下文融合有助于捕获不同比例的对象，但它不能利用全局视图中对象或内容之间的关系。这对于场景分割也是必不可少的。
另一种方法利用循环神经网络来利用长距离依赖性，从而提高场景分割的准确性。提出了一种基于二维LSTM网络的标签复杂空间依赖性捕获方法。这项工作建立了一个具有有向无环图的递归神经网络，以捕获对局部特征的丰富的上下文依赖性。然而，这些方法隐式地捕捉了与循环神经网络的整体关系，其有效性在很大程度上依赖于长期记忆的学习结果。
为了解决上述问题，我们提出了一种新的自然场景图像分割框架，称为双注意网络（DANET）。它引入了一种自我关注机制，分别捕获空间和通道维度中的特征依赖性。
我们在扩展的FCN上附加了两个并行注意模块。一个是位置注意模块，另一个是通道注意模块。对于位置注意模块，我们引入了自注意机制来捕获特征图任意两个位置之间的空间相关性。对于某个位置的特征，通过对所有位置的特征进行加权求和来更新，其中权重由相应两个位置之间的特征相似性决定。也就是说，任何两个具有相似特征的位置，无论它们在空间维度上的距离如何，都可以相互促进。对于通道注意模块，我们使用类似的自我注意机制捕获任意两个通道映射之间的通道依赖关系，并使用所有通道映射的加权和更新每个通道映射。

Dual Attention Network for Scene Segmentation

Related Work

基于完全卷积网络（FCN）的方法在语义分割方面取得了很大的进展。提出了几种增强上下文聚合的模型变量。
Deeplabv2和Deeplabv3采用灰度空间金字塔池嵌入上下文信息，上下文信息由具有不同扩展速率的并行扩展卷积组成。
PSPNet设计了一个金字塔池模块，收集有效的上下文优先权，包含不同尺度的信息。
编码器-解码器结构融合中高级语义特征以获得不同的尺度上下文。学习对局部特性的上下文依赖性也有助于特性表示。
DAG-RNN利用递归神经网络建立了直接循环图模型，以捕获丰富的上下文依赖性。
PSANET通过卷积层捕获像素级关系和空间维度中的相对位置信息。
OCNet采用了带ASPP的自我关注机制来利用上下文依赖性。
EncNet 引入了一种通道注意机制来捕获全局上下文。
注意力模块可以模拟长期依赖关系，并在许多任务中得到广泛应用。
本文介绍了一种学习更好的图像生成器的自我关注机制。主要探讨非局部操作在时空维度上对视频和图像的有效性。
与以往的工作不同，我们在场景分割任务中扩展了自我关注机制，并精心设计了两种关注模块，以捕捉丰富的上下文关系，从而获得具有类内紧凑性的更好的特征表示。

Dual Attention Network

对于场景分割的图片，内容或对象在比例、灯光和视图上都是不同的。由于卷积操作会导致局部接收场，因此与具有相同标签的像素相对应的特征可能存在一些差异。这些差异会导致类内不一致，并影响识别的准确性。
为了解决这个问题，我们通过在特征之间建立关注机制的关联来探索全局上下文信息。该方法能够自适应地聚合长距离上下文信息，从而提高了场景分割的特征表示能力。
我们设计了两种注意模块，在扩展残差网络生成的局部特征上绘制全局上下文，从而获得更好的像素级预测特征表示。我们采用了一个以扩展策略为主干的预训练残差网络。我们删除了向下采样操作，并在最后两个ResNet块中使用了扩张卷积，从而将最终特征图的大小扩大到输入图像的1/8。它保留了更多的细节，而不添加额外的参数。然后将扩展后的残差网络的特征输入到两个并行的注意模块中。
我们首先应用卷积层来获得降维的特性。然后将这些特征输入到位置注意模块中，通过以下三个步骤生成空间远程上下文信息的新特征。第一步是生成一个空间注意矩阵，该矩阵对特征的任何两个像素之间的空间关系进行建模。第二步我们在注意矩阵和原始特征之间执行矩阵乘法。第三，我们对上面的乘法结果矩阵和原始特征执行一个元素方向的和运算，以获得反映长范围上下文的最终表示。同时，通过信道注意模块捕获信道维中的上下文信息。捕获通道关系的过程与位置注意模块相似，除了第一步，其中通道注意矩阵以通道维度计算。最后，我们将两个注意模块的输出集合起来，以获得更好的像素级预测的特征表示。
为了充分利用远程上下文信息，我们将这两个注意模块中的特征进行了聚合。具体来说，我们通过卷积层对两个注意力模块的输出进行变换，并进行元素求和以实现特征融合。最后利用卷积层生成最终的预测图。我们不采用级联操作，因为它需要更多的GPU内存。注意到我们的注意模块很简单，可以直接插入现有的FCN管道中。它们不会增加太多参数，但有效地增强了特征表示。

Conclusion

本文提出了一种用于场景分割的双注意网络（DANET），它利用自注意机制自适应地集成了局部语义特征。具体地说，我们引入了一个位置注意模块和一个通道注意模块来分别捕获空间和通道维度中的全局依赖性。烧蚀实验表明，双注意模块能够有效地捕获长距离的上下文信息，并给出更精确的分割结果。我们的注意力网络在四个场景分割数据集（即城市景观、Pascal VOC 2012、Pascal Context和Coco等）上始终实现卓越的性能。

Dual Attention Network for Scene Segmentation

Abstract

Introduction

Related Work

Dual Attention Network

Conclusion

相关推荐