deeplabv3:Rethinking Atrous Convolution for Semantic Image Segmentation 阅读笔记

针对的问题:在语义分割任务应用深度卷积神经网络有两个挑战:

  • 一个问题是深度网络中的pooling层的使用使得特征分辨率越来越小,网络学习的特征更加抽象化,这不利于期望局部空间细节信息的密集型任务例如图像分割。因此作者建议应用空洞卷积来应对这个问题。
  • 另一个问题是物体的多尺度。解决这个问题主要分为4类,第一类将深度网络应用于图像金字塔,以提取物体在不同尺度下的特征。第二类应用encode-decode结构,利用encode的多尺度信息并在decode部分恢复空间分辨率。第三类在深度网络后应用额外的模块,例如DenseCRF。第四类,应用空间金字塔池化层获取输入特征的多尺度信息。图a、b、d分别对应第一、二、四类解决方案。
    deeplabv3:Rethinking Atrous Convolution for Semantic Image Segmentation 阅读笔记

deepLabV3

  • 1.重新考虑应用atros卷积(空洞卷积),网络能够在级联模块和空间金字塔池的框架内有效地扩大滤波器的感受视野以结合多尺度上下文信息。在试验中,首先级联多个步长为2的残差块,图a中的Block4-Block7,结果证明级联多个步长为2的残差块使得语义分割效果很差,因为随着特征图分辨率的下降丢失了大量的空间细节信息。所以使用了带空洞卷积的残差块如图b,使得Block4-Block7输出的特征图分辨率不再下降,同时也能扩大卷积核的感受视野。
    deeplabv3:Rethinking Atrous Convolution for Semantic Image Segmentation 阅读笔记
  • 2.提出的结合不同比率的空洞卷积和BN层的模块改进ASPP模块。具有不同比率空洞卷积的ASPP模块可以有效的获取物体的多尺度信息,但是在实验中发现随着ASPP模块中空洞卷积的比率增大,滤波器有效的权重数量变的更少。在极端情况下当空洞卷积比率与特征图接近时,几乎只有卷积核中心的权重是有效的,这导致ASPP无法较好的获取全局信息。为了克服这个问题,通过应用global average pooling获取image_leave信息。在通过插值法获取期望的分辨率后添加BN层。那么改进后的ASPP模块如下图所示。在ASPP模块中的几个空洞卷积后都添加了BN层。
    deeplabv3:Rethinking Atrous Convolution for Semantic Image Segmentation 阅读笔记