deeplabV3+

deeplabV3+

deeplabV3+主要运用了Encoder-Decoder结构
主要包括三个结构:
1.backbone
2.aspp
3.deconder
其中前两项称为Encoder

deeplabV3+
上图对于整个过程画的特别清楚,自我感觉很容易进行理解。

deeplabV3 运用了膨胀卷积,在保证图像大小不变的情况下,增大了图片的感受野。
deeplabV3+

Backbone 我采用的resnet101, 如上图所示,在图像缩小为16倍后,运用膨胀卷积在保证图片大小不变,感受野却继续增大。(注意:语义分割中,更深的层数决定图像的轮廓,浅层的深度显示的是物体的细节。)但是如果图像尺寸缩小的太小,在还原的过程中会导致信息缺失,因此膨胀卷积很好地解决了这一问题。
如最上方的一张图最后backbone一共有两个输出部分,一个是最后一层的输出,另一个是从中间层进行输出(中间层截取的是图像1/4处,进行计算可以得到)。为什么呢?
因为全局特征或上下文之间的互相作用有助于做语义分割

采用Aspp结构(带膨胀卷积的空间金字塔池化),作用:捕捉多尺度的空间信息,并把不定长的输入变为定长的输入
在backbone最后输出的结果采用不同的膨胀率进行卷积经过试验分别是采用1x1 卷积和三个3x3膨胀率分别为6,12,18。滤波器数量为256。并加上图像集特征,即先对原图做GAP,然后在进行卷积融合。如下图所示。
deeplabV3+
最后就是Decoder,按照第一幅图的流程就可打得到最后结果。