论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation

CVPR 2020.6.5

原文链接:点击跳转

用于语义分割的带侧抑制的空洞卷积

摘要

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
空洞卷积可以扩大感受野,不增加而外权重和牺牲空间像素。但是空洞卷积在语义意义轮廓上关于像素的位置知识不能掌握,这可能会导致对象边界的模糊预测。

作者受LI(侧抑制)机制,提出了LI-Convs来克服这些问题。将LI-Convs整合到Deeplab3+结构中,提出了LI-ASPP和LI-MNV2结构。

论文出发点

语义分割是靠边界将不同对象分开,所以边界的像素具有较强的语义信息。然而在空洞卷积中该像素的重要性没有被明确强调,因此这种位置重要性是被隐含地学习,这可能会导致边界标签模棱两可且具有误导性。一些方法已在该方面做出改进,但是仍有提升空间。

虽然空洞卷积可以扩大感受野,但采样像素总数不变。这种稀疏采样某种程度上会削弱语义分割等密集预测任务的潜力。

侧抑制(Lateral Inhibition)是一种神经生物学现象,相近的神经元彼此之间发生的抑制作用,即在某个神经元受到刺激而产生兴奋时,再刺激相近的神经元,则后者所发生的兴奋对前者产生的抑制作用。该机制导致人们视网膜细胞对空间变化的刺激(如物体之间的语义边界)非常敏感。

研究发现LI可以提升神经网络的鲁棒性和效率,但是这些网络结构太浅,对于最新的深层网络结构如MobileNet、ResNet没有效果。LI虽然被引入语义分割,但是前人的工作没有评估LI在语义分割方面的潜力,而他们整合LI的方法并没有触及深层CNN的核心机制,如卷积运算。

Dilated Convolutions with Lateral Inhibitions

Definition

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
Eq.1定义了一个常规的卷积操作,Eq.2是Eq.1的一个扩展,其中引入了LI项。

L(u,n)代表侧抑制强度,Eq.2可以理解为G(n)特征值减去被抑制的数值,剩余未被抑制的特征值与F(m)做卷积操作。

Eq.3是更泛化的式子,引入了膨胀率e,表示抑制空间的膨胀大小(类似空洞卷积的膨胀),具体请结合Figure.1理解。

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
Eq.4给出了具体的侧抑制强度表达式,WLW_L为权重,σ\sigma为标准差,D代表欧氏距离。

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
左图理解侧抑制的原理,上层和下层之间的区域可以理解为对象的边界。

上层的神经元被**,再被两侧神经元侧抑制(菱形连接的输入)后数值会减小。

例如:8>3:8120.2580.25=38 -> 3:8-12*0.25-8*0.25=3

中图为空洞卷积,每个采样点周围的点构成侧抑制区域,图中所示为333*3区域,该区域的扩大为侧抑制空间的扩大,对应Eq.3引入的膨胀率e。

Implementation of LI-Convs

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
图二介绍了LI-Convs的结构。

输入特征经过RELU将其中的负值变为0,再经过LI层进行侧抑制特征提取,其后又接一个RELU,最后进行空洞卷积操作得到特征输出。

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation

LI层的过滤器如Eq.5定义,令第一个RELU后为0的特征值为1,大于0的特征值输出小于0。所以其后接的RELU得到是最初输入特征值里小于0的部分,空洞卷积是提取的小于0部分特征值的特征,即侧抑制特征。

LI-ASPP and LI-MNV2

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
图3的箭头转换说明由上图可解释。

在Deeplab3+结构中引入LI-Convs,将ASPP中3个并行的空洞卷积替换为LI-Cons,得到LI-ASPP。

在MobileNet-V2中,在第10、13、16个瓶颈中添加LI层,得到LI-MNV2网络。

Experiments

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
表一实验得到了LI-ASPP和LI-MNV2的最佳参数选择,图中粗体部分。同时观察到一个现象,在越高层的残差瓶颈结构中添加LI层,mIoU提升越好,符合预期效果。

其原因为,高层的特征图中,含有更丰富的语义信息,可以更好地受益于对LI层引入的语义轮廓的改进的敏感性。

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
将表一实验得到的最佳参数用于表二实验,发现LI-MNV2和LI-ASPP在单独使用时都表现出了优越的性能,二者组合表现性能最佳,且参数和计算量只带来少量提升。

How the LI layer works

LI层到底是如何工作的?

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
虽然在LI层之后**的强度被全局抑制,但被抑制的特征表现出更可识别的模式,具有清晰和强调的轮廓,这在分割领域中可能更可取。

What interests the model

论文阅读:Dilated Convolutions with Lateral Inhibitions for Semantic Image Segmentation
较深的红色在热图中表示较高的积极神经元反应(更多的模型注意力),反之亦然。

与基线相比,模型对语义上有意义的轮廓区域给予了更多的关注,这种轮廓敏感性可以合理地归因于LI-Convs,且该方法生成的分割预测具有更好的视觉质量。