CBNet--一种新的目标检测的复合骨干网体系结构

一、Introduction
一般来说,在一个典型的基于CNN的目标检测器中,使用主干网络来提取检测对象的基本特征,该网络通常是为图像分类任务而设计的,并在ImageNet上预训练。毫无疑问,更强大的主干网可以带来更好的检测性能。尽管最先进的基于深度的大骨干网络的探测器取得了很好的结果,但仍有很大改进空间。此外,通过设计一个新的更强大的主干网络并在ImageNet上预训练来获取好的检测性能是十分昂贵的。且由于几乎所有现有的主干网络最初都是为图像分类而设计的,直接使用它们来提取目标检测的基本特征可能会导致性能不佳

为了解决上述问题,我们提出了一种新颖的方式组合多个相同的主干,以构建一个更强大的用于目标检测的主干,我们称之为CBNet。具体的,CBNet由多个相同的主干网(分为辅助主干网与主主干网)以及相邻主干网之间的复合连接组成。从左到右,辅助主干网中每个阶段的输出,即高层特征,通过复合连接流到下一主干网的并行级,作为输入的一部分。最后,利用最后一个主干的特征映射进行目标检测。如图1所示。
CBNet--一种新的目标检测的复合骨干网体系结构

显然,CBNet提取的特征融合了多个主干的高层和低层特征,从而提高了检测性能。我们不需要预先训练CBNet来训练由CBNet组成的检测器,只需用单个主干的预训练模型初始化CBNet的每个主干网。这使得采用CBNet比设计一个新的更强大的主干网络并在ImageNet上预训练更经济和高效。如表1所示。
CBNet--一种新的目标检测的复合骨干网体系结构

总结,本文的主要贡献有两个方面:
(1)我们提出了一种新方法,通过组装多个相同的主干,以构建一个更强大的用于目标检测的主干,这可以显著提高各种先进检测器的性能。
(2)我们在MSCOCO数据集上使用单一模型,实现了53.3 mAP。

二、Method

1.CBNet结构
CBNet由k个相同的主干网络组成(k>=2),我们将k=2的情况称为双主干(DB),k=3的情况称为三重主干(TB)。CBNet由主主干网络Bk和辅助主干网络B1,B2,…,Bk-1(k-1为下标)组成,每个主干有L级(一般L=5),每个级由若干卷积层组成,这些卷积层有相同大小的特征图。主干的第l级使用非线性变换
CBNet--一种新的目标检测的复合骨干网体系结构

在传统的只有一个主干的卷积网络中,第l级的输入为第l-1级的输出,表达式为:CBNet--一种新的目标检测的复合骨干网体系结构

在CBNet中,将前一主干网的输出特征作为当前主干网输入特征的一部分,具体地,主主干网Bk的第l级的输入是Bk的前一级l-1级的输出与前一主干网Bk-1(k-1为下标)的第l级的输出。表达式为:CBNet--一种新的目标检测的复合骨干网体系结构
其中,g(.)表示复合连接,由 1×1卷积层和批量归一化组成,以减少通道和上采样操作。结果是,Bk-1(k-1为下标)的第l级的输出特征转化为Bk的第l级的输入,并添加到原始输入特征映射以通过相应的层(个人理解为Bk-1(k-1为下标)的第l+1级)。这种合成方式将前一个主干的相邻高级阶段的输出馈送给下一个主干,我们称之为相邻高级合成(AHLC)。
CBNet--一种新的目标检测的复合骨干网体系结构
对于目标检测任务,仅仅使用主主干网的输出Xkl(l=1,2,…L)作为RPN的检测头的输入,CBNet的辅助主干网络B1,B2,…,Bk-1(k-1为下标)可采用多种结构,可直接用单个主干的预训练模型初始化每个主干网。

2.其他的组合种类
(1)Same Level Composition(SLC)
一种直观且简单的组合样式是融合来自同一阶段主干的输出特征。SLC:
CBNet--一种新的目标检测的复合骨干网体系结构
(2)Adjacent Lower-Level Composition(ALLC)
将前一主干的相邻低级的输出馈送给下一主干。ALLC:CBNet--一种新的目标检测的复合骨干网体系结构
(3)Dense Higher-Level Composition(DHLC)
将所有高级阶段的特征集合到辅助主干中,并将复合特征添加到主主干中前一阶段的输出特征中。DHLC:
CBNet--一种新的目标检测的复合骨干网体系结构
CBNet--一种新的目标检测的复合骨干网体系结构

三、Results

1.SLC比原始基线结果更差。我们认为主要原因是SLC的结构会带来严重的参数冗余。具体的,在CBNet中,两个主干的同一阶段提取的特征是相似的,因此,SLC不能比使用单个主干学习更多的语义信息。即网络参数没有得到充分利用,反而给训练带来了困难,导致训练效果变差。

2.我们推断,在CBNet中,如果将前一主干的较低层次(即较浅的)特征添加到下一主干的高层(即较深的)特征中,后一主干的语义信息将受到很大损害。相反,如果将前一主干的深层特征添加到下一主干的浅层特征中,后一主干的语义信息将受到很大损害大大增强。

3.DHLC比ALLC增加了更多的复合连接,但它并没有像ALLC那样带来性能改进。我们推断,复合骨干网络的成功主要在于相邻阶段间的复合连接,而其他的复合连接由于距离太远,并不能丰富其特性。

4.仅仅增加参数或增加额外的主干网并不能带来好的结果,应适当增加复合连接。
CBNet--一种新的目标检测的复合骨干网体系结构
5.提高性能的主要是CBNet结构,而不是网络参数的增加。
CBNet--一种新的目标检测的复合骨干网体系结构
6.考虑到速度与内存开销,我们建议使用双主干与三主干结构。

7.CBNet的主要缺点是它使用更多的主干来提取特征,从而降低了基线检测器的推理速度,从而增加了计算复杂度。DB使FPN得AP增加了1.6%,但速度从8.1fps降到了5.5fps。为了缓解这一问题,我们对CBNet进行加速转换,删除辅助主干的两个早期阶段。可将速度显著提高,从5.5fps提高到了6.9fps,同时不会对AP造成很大影响(从41.0到40.8)。
CBNet--一种新的目标检测的复合骨干网体系结构
CBNet--一种新的目标检测的复合骨干网体系结构