Learning a Discriminative Feature Network for Semantic Segmentation

论文地址:Learning a Discriminative Feature Network for Semantic Segmentation

Abstract

现有的大多数语义分割方法仍然面临着两个方面的挑战:类内不一致和类间模糊(intra-class inconsistency and inter-class indistinction) 。为了解决这两个问题,我们提出了一个判别特征网络(DFN),它包含两个子网络:平滑网络和边界网络(Smooth Network and Border Network)。

Introduction

Learning a Discriminative Feature Network for Semantic Segmentation
如图所示,第一行类内不一致问题,第二行类间模糊问题。第一列,原始图像。第二列是基于FCN的模型的输出。第三列是我们提出的方法的输出。在第一排,牛的左下角被认作马。这就是类内不一致问题。在第二排,电脑机箱有着与电脑屏幕相似的蓝光和黑色外壳,很难区分。这就是类间模糊问题。

为了解决这两个问题,我们从更宏观的角度重新思考语义分割问题。这样,我们把语义切分看作将一致的语义标签分配给一类事物而不是每个像素的任务。从宏观的角度来看,将每一类像素作为一个整体,内在地考虑了类内一致性和类间变化。为此,我们提出了一种新的区分特征网络(DFN)来学习同时考虑“类内一致性”和“类间差异性”的特征表示。

Method

DFN

包括两个子网络:平滑网络和边界网络
Learning a Discriminative Feature Network for Semantic Segmentation

Smooth network

Learning a Discriminative Feature Network for Semantic Segmentation
类内不一致问题主要是由于缺乏上下文信息,因此,引入了全局平均池的全局上下文。然而,全局上下文只具有较高的语义信息,不利于空间信息的恢复。进一步需要多尺度的方法来捕获空间信息。然而,存在一个问题,即不同尺度的感受野产生不同程度的判别特征,导致结果不一致。因此,通过设计一个CAB来选择更多的判别特征来预测某一特定类别的语义标签。
Learning a Discriminative Feature Network for Semantic Segmentation
我们的通道注意块(CAB)设计用于更改每个阶段上的特征权重,以增强一致性。
Learning a Discriminative Feature Network for Semantic Segmentation
其中x就是网络输出的特征图,w表示卷积操作。k∈{1,2,…K},K表示通道数。D表示所有像素位置的集合。
Learning a Discriminative Feature Network for Semantic Segmentation
其中σ表示预测的概率值,y表示网络的输出。最终的预测标签是有着最高概率值的。我们假设对某一区域的预测标签为y0,而真正的标签为y1。论文引入了参数α用于改变最高的概率值从y0到y1,如下面公式所示:
Learning a Discriminative Feature Network for Semantic Segmentation
其中α就是注意力模块需要学习的权重,基于上述的公式描述,第一个公式隐式的表示每个通道的权重是一样的。不同阶段的特征具有不同特性,这导致了预测的不一致性,为了获得更加具有判别能力的特征,通过第三个公式可以通过通道注意力模块对通道加权,用于选择特征。

Border network

为了提取准确的语义边界,本文采用语义边界的显式监督,使得网络学习具有较强的类间区分能力。低阶段特征具有更详细的信息,而高阶段特征具有更高的语义信息。在我们的工作中,我们需要有更多语义的语义边界。因此,我们设计了一个自下而上的边界网络。这样的监督信息是来源于在语义分割ground truth上使用传统的图像处理方法,例如Canny边缘等。为了处理正负样本不均衡,论文使用了focal loss来监督Border network。