《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记

1. 概述

现有的高性能检测方法是基于CNN网络的,例如ResNet-101、Inception,这些检测方法拥有很强大的表达能力,但是具有较大的计算开销。那么把特征提取部分,也就是backbone部分减小(轻量级模型),就会带来检测性能的下降。这篇文章给出了一种新结构,通过人工干预的形式,增强轻量级特征构建了一个快速且准确的检测器。受人体视觉系统中感受野(Receptive Fields,RFs)结构的启发,这篇文章提出了一种新的RF模块RFB(Receptive Fields Block,RFB),它将尺寸与RFs的偏心率都考虑在内,增加了特征表达能力与鲁棒性。文中将RFB集成到SSD网络的头部,构建RFB Net检测器,最后的实验证明能够在满足实时检测情况下达到之前深度CNN网络的检测性能。
代码链接:链接

在之前的网络结构中通常将感受野在feature map上使用相同尺寸的采样网格,这可能会导致在特征识别性和鲁棒性方面的损失。Inception结构通过不同的卷积核尺寸考虑了感受野的尺寸因素,但是所有的卷积核是在同一个采样中心的基础上进行采样的;与之相似思想的是ASPP(Atrous Spatial Pyramid Pooling),在平行的卷积分支对顶层feature map使用不同的atrous rate,这就造成了相对中心不同的偏移,也在语义分割上取得了不错的效果。但是,这些特征与以前具有相同核大小的卷积层相比,只有一个统一的分辨率,并且与雏菊形状的卷积层相比,得到的特征往往不那么明显;Deformable CNN(DCN)是根据目标感受野的空间分布(尺度和形状)来进行适应,但是感受野的中心并没有被考虑在内,感受野中所有像素的贡献都是相同的,一些重要的信息并没有被强化。下图是本篇论文中的方法与上面集中方法的对比:
《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记
在RFB网络中使用分支池,不同的内核对应不同大小的RFs,应用扩张的卷积层来控制其偏心度,并对其进行reshape以生成最终的表示,见下图所示。
《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记
RFB模块在文章中被运用到了SSD网络的头部,并取得了不错的效果。并且RFB模块是通用的,对网络体系结构施加很少的约束。文章的主要工作内容可以归结为如下三点:
1)提出了一个RFB模块来模拟人眼视觉系统中RFs的大小和偏心度,以增强轻量级CNN网络的深度特性。
2)提出了基于RFB网络的检测器,通过简单地用RFB替换SSD的顶部卷积层,它在保持计算成本受控的同时显示出显著的性能增益。
3)结果表明,RFB网络在Pascal VOC和MS COCO上实现了最新的实时处理速度,并通过与mobilenet的链接证明了RFB的泛化能力。

2. RFB网络结构

RFB网络的内部结构主要由两部分组成:不同卷积核的多分支卷积层;后面的膨胀池化或者膨胀卷积层。第一个部分的作用和Inception结构中的是类似的,模拟感受野的多种尺度视角。第二个部分的作用是重新生成人眼视觉系统中感受野尺寸和中心的关系。
多分支卷积层
根据RF的定义很自然地需要在CNN网络中应用不同大小的卷积核来实现多尺度的RF。这里多分支设计灵感源自于ResNet与Inception-V2结构,其具体结构见文章后面的图,图的表述要比文字更直观。
膨胀池化与卷积
这里的膨胀池化与卷积最开始是源自于astrous convolution layer的,它是为了在一个高分辨率的feature map上生成新的特征图,并且在相同参数量的情况下尽可能表达上一个feature map中的信息。这个方法首先在语义分割中取得了不错的效果,之后在引入到了检测网络中。
论文利用膨胀卷积方法模拟了PRF在人视觉皮层的pRF偏心效应。其RFB模块的结构如下所示:
《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记

3 基于RFB模块的检测网络结构

这是SSD使用了RFB模块的检测网络框架:
《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记
轻量级的基础网络
作者为了能够和原始的SSD进行对比,因而只是进行了一些必要的改动,基础网络还是用的VGG-16网络。
多尺度特征图上的RFB
作者在这里保留了与原始SSD一样的级连结构,然后对应地使用本文提出的RFB与RFB-s进行替换。

4. 实验

作者这里将带了RFB-Net的SSD与原始对应SSD进行对比,并且与当前先进的检测网络进行对比,得到下表:
《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记
可以看出在加入RFB网络之后,网络的性能得到了一定的提升,大约3个点。下面是该网络性能与时间的对应关系图:
《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记