【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

这篇文章是旷视科技发表在ECCV 2018上的文章,内容是语义分割,论文原文《BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation》。

语义分割任务不仅需要丰富的空间信息,还需要大的感受野。现有的方法要么通过剪裁或 resize 来限定输入大小,要么通过减少网络通道数量加快处理速度,但是这会导致度量和可视化的精度下降或者弱化空间信息。

针对语义分割的难点,本文提出Bilateral Segmentation Network(双向分割网络,BiSeNet),不仅实现了实时语义分割,还把语义分割的性能推进到一个新高度。

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

BiseNet由两部分构成:Spatial Path (SP) 和 Context Path (CP)。Spatial Path用来解决空间信息缺失,Context Path用来解决感受野缩小的问题。Spatial Path 捕获的空间信息编码了绝大多数的丰富细节信息,Context Path 的输出特征主要编码语境信息。两路网络的特征并不相同,因此不能简单地加权两种特征,要用一个独特的特征融合模块以融合这些特征。因此设计了特征融合模块(Feature Fusion Module,FFM)。在 Context Path 中,论文还提出一个独特的注意力优化模块,以优化每一阶段的特征。

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

Spatial Path 包含三层,每层包含一个步幅(stride)为 2 的卷积,随后是批归一化和 ReLU。因此,该路网络输出大小为原图像 1/8 的输出特征图,所以有比较丰富的空间信息。

Context Path以轻量级的模型如Xception作为后端,可以快速下采样特征图以获得大感受野,编码高层语义语境信息。然后在末端添加一个全局平均池化,通过全局语境信息提供一个最大感受野。最后还要融合最后两个阶段的特征。最后两个阶段的特征经过ARM计算注意力向量以指导特征学习。这一设计可以优化 Context Path 中每一阶段的输出特征,无需任何上采样操作即可轻易整合全局语境信息,因此,其计算成本几乎可忽略。

最后通过FFM模块融合两路网络的特征。

论文通过辅助损失函数监督模型的训练,通过主损失函数监督整个 BiSeNet 的输出。另外,还通过添加两个特殊的辅助损失函数监督 Context Path 的输出,就像多层监督一样。上述所有损失函数都是 Softmax。

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

最后借助参数 α(论文设为1) 以平衡主损失函数与辅助损失函数的权重。

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

论文采用修改版的 Xception39 处理实时语义分割任务,并在 Cityscapes,CamVid 和 COCO-Stuff 三个数据集上对 BiSeNet 进行了评估。

 

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【论文学习记录】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation