PSPNet(Pyramid Scene Parsing Network)

github代码:https://github.com/hszhao/PSPNet/tree/4b53f1c97a5921a99a965a60c0940eec2d46bb06对于场景分类(Scene parsing),主流的方法为全卷积网络即FCN(fully convolutional network),然而FCN的一个缺点就是无法利用全局场景类别信息(global scene category clues).在复杂的场景特征获取中,广泛采用金字塔池化(spatial pyramid pooling,文献18)来获的全局场景的特征,因此本文在FCN的基础上,引入空间金字塔池化,网络结构图如下:

PSPNet(Pyramid Scene Parsing Network)

对于输入图像,首先通过一个ResNet网络提取图像特征(feature map),如图3(b);之后将得到的feature map输出到一个全局pool层,再通过一个Pyramid Pooling Module获得多个sub-region的特征表示,之后通过上采样(upsampling),并串联层(concat)所有特征,得到最后的特征表示向量,从而获得图像的局部和全局特征,如图3(c)所示,图中从上倒下四个卷积层,卷积核大小分别为.最后将得到的向量输入一个卷积层(卷积,用于减小维度),得到最后的预测结果,如图3(d)所示.

ResNet网络

图3中,模块(b)CNN网络为预训练的RseNet网络(文献13),采用dilated network策略(文献3,40),以获取图像的feature map,最终得到的feature map为输入图像的1/8.RseNet网络结构如下:

PSPNet(Pyramid Scene Parsing Network)

除了使用softmax loss,即图4中loss1训练最后的主分类器外,还引入了res4b22 residule模块,构造另一个辅助分类器,损失函数为loss2,并引入一个权重参数来控制loss2的权重,辅助分类器可以帮助优化学习过程.文献对比了不同权重参数的效果:

PSPNet(Pyramid Scene Parsing Network)

权重参数效果最佳.

此外,对于ResNet网络,适当加大网络深度可提高精度:

PSPNet(Pyramid Scene Parsing Network)