deeplabV3+

deeplabV3+主要运用了Encoder-Decoder结构
主要包括三个结构：
1.backbone
2.aspp
3.deconder
其中前两项称为Encoder

deeplabV3+
上图对于整个过程画的特别清楚，自我感觉很容易进行理解。

deeplabV3 运用了膨胀卷积，在保证图像大小不变的情况下，增大了图片的感受野。
deeplabV3+

Backbone 我采用的resnet101，如上图所示，在图像缩小为16倍后，运用膨胀卷积在保证图片大小不变，感受野却继续增大。（注意：语义分割中，更深的层数决定图像的轮廓，浅层的深度显示的是物体的细节。）但是如果图像尺寸缩小的太小，在还原的过程中会导致信息缺失，因此膨胀卷积很好地解决了这一问题。
如最上方的一张图最后backbone一共有两个输出部分，一个是最后一层的输出，另一个是从中间层进行输出（中间层截取的是图像1/4处，进行计算可以得到）。为什么呢？
因为全局特征或上下文之间的互相作用有助于做语义分割

采用Aspp结构（带膨胀卷积的空间金字塔池化），作用：捕捉多尺度的空间信息，并把不定长的输入变为定长的输入
在backbone最后输出的结果采用不同的膨胀率进行卷积经过试验分别是采用1x1 卷积和三个3x3膨胀率分别为6，12,18。滤波器数量为256。并加上图像集特征，即先对原图做GAP，然后在进行卷积融合。如下图所示。
deeplabV3+
最后就是Decoder，按照第一幅图的流程就可打得到最后结果。

deeplabV3+

deeplabV3+

相关推荐