AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection

AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection
论文地址:https://arxiv.org/pdf/2005.11475.pdf
代码地址:https://github.com/Caojunxu/AC-FPN

摘要

如何解决高分辨率输入情况下,特征图分辨率和感受野之间的矛盾,仍然是一个开放性问题。本篇文章旨在解决这个问题,提出了一个网络结构,称之为注意力引导背景特征金字塔网络(AC-FPN),它通过集成注意力引导的多路径特征,来获取来自各种大感受野的可判别信息。
该模型包含两个模块,一个是背景提取模块(CEM),用于获取来自多种感受野的背景信息。由于冗余的环境信息可能误导检测和分类,文章还设计了第二个模块,叫做注意力引导模块(AM),它能够通过注意力机制,自动捕获目标的显著性特征。AM由两个子模块组成,它们是背景注意力模块(CxAM)和内容注意力模块(CnAM),分别用于专注于获取判别语义和精确定位。
文章提出的AC-FPN能够方便的插入到现有的以FPN为基础的模型当中去。

一、前言

为了准确的定位目标,典型的检测器使用高分辨率图像做输入,它包含更多细节信息,从而可以提升目标检测的性能。然而,高分辨率图像需要神经元有更大的感受野来获取有效的语义信息,否则在高分辨率图像中获取大目标时,检测性能会下降。
直观上,为了获得更大的感受野,可以通过增加卷积和下采样层的方法来设计一个更深的网络。然而,简单增加卷积层数量的做法是很低效的,这样子会需要更多的参数,会造成更大的计算和存储开销,更糟糕的是,由于过拟合问题的存在,太深的网络很难优化。因此,需要解决的问题是,当高分辨率图像做输入时,模型要能够获取大感受野的同时,还能够维持高分辨率特征图。
通过引入一条自上而下的通路,FPN可以将低分辨率、大感受野特征和高分辨率、小感受野特征结合到一起,一定程度上缓解了之前提到的特征图分辨率和感受野大小之间的矛盾,但与输入尺寸相比,相关模型的感受野仍旧太小了。
总而言之,基于FPN方法目前存在两个问题:1)在高分辨率输入时,特征图分辨率和感受野之间的矛盾;2)多尺度感受野之间缺乏有效的联系;

二、方法

AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection
图1 网络架构图

1、背景提取模块(CEM)

如图1所示,CEM包含多路径空洞卷积层,rate取3、6、12、18、24,此外,为了增强模型几何转换能力,在每个路径都使用了可变形卷积层。还有,在CEM中,使用了dense连接,即每个空洞卷积层的输出被concat到输入feature map上,然后再输入到下一个空洞卷积层。最后,为了保留初始输入的粗纹理信息,将空洞卷积层的输出和输入的上采样信息进行concat,然后再送入一个1*1卷积层中,融合粗细纹理特征。

2、注意力引导模块(AM)

尽管,来自CEM的特征包含丰富的感受野信息,但不是所有的信息都有助于提升目标检测的性能。因为bbox或候选区域可能被冗余信息误导,从而导致检测准确率下降。因此,为了祛除冗余的负面影响和进一步增强特征图的表征能力,文章提出注意力引导模块,它能够获取强语义和准定位的显著性特征。如图1所示,AM包含两个部分:1)环境注意力模块(CxAM),2)内容注意力模块(CnAM)。
AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection
图2 CxAM的架构

2.1 CxAM

AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection
AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection
图3 CnAM的架构

2.2 CnAM

AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection

三、实验

为了衡量AC-FPN的性能,baseline包括Cascade R-CNN/Faster R-CNN/PANet/DetNet,在MS-COCO2017上,进行训练验证和测试。为了公平起见,文章使用了COCO风格和PASCAL风格的AP指标。

3.1 实现细节

输入图片均resize为短边800的图片,并使用ImageNet的预训练模型。训练模型时,初始学习率为0.02,进行60k次迭代,然后以0.002进行另20k次迭代。
对于AC-FPN,在F5上使用空洞卷积,对P5使用最大池化进行下采样。更具体是,在CEM中,先对F5降通道为512做输入,然后再跟着数个33可变形卷积层(带有不同空洞率),之后,将通道维度降到256,方便融合自顶向下结构的FPN。详细细节见下表:
AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection
对于AM,使用1
1卷积来改变输入通道数为256(在CnAM)和128(在CxAM)。

3.2 与最优算法的比较

AC-FPN论文详解:Attention-guided Context Feature Pyramid Network for Object Detection