EfficientDet

EfficientDet

1. Introduction

两个主要挑战:
挑战1:有效的多尺度特征融合:fpn已广泛用于多尺度特征融合,由于这些不同的输入特征在不同的分辨率下,我们发现它们对融合输出的特征的贡献往往是不相等的。为了解决这一问题,我们提出了一个简单而又高效的加权双向特征金字塔网络,它在反复应用自顶向下和自下而上的多尺度特征融合的同时,引入可学习权值来学习不同输入特征的重要性。

挑战2:
模型缩放,在考虑到准确率和效率的情况下,扩大特征网络和盒类预测网络也是至关重要的。在最近的工作的启发下,我们提出了一种目标检测器的复合尺度方法,该方法联合提高了所有主干、特征网络、box/class,预测网络的分辨率/深度/宽度。

最近引入的EfficientNets比以前常用的backbone取得了更好的效率。将EfficientNet与我们提出的BiFPN和复合标度相结合,我们开发了一个新的目标检测系列。

3. BiFPN

在这一部分中,我们首先描述以多尺度特征的融合问题,然后介绍了BiFPN的两个主要思想:有效的双向交叉连接和加权特征融合。
EfficientDet
3.1. Problem Formulation

多尺度特征融合的目的是在不同分辨率下对特征进行聚类,形式上,给出了一个多尺度P3代表分辨率80x80,而P7代表分辨率5x5。

3.2. Cross-Scale Connections

传统的FPN固有的受到信息流的限制,为了提高模型效率,首先,去除只有一个输入边的节点,因为一个节点只有一个输入边而没有特征融合,那么它对融合不同特征的特征网络的贡献就会更小,这导致了一个简化的PANet,第二,如果输入位于同一级别,则从原始输入添加额外的边缘到输出节点,以便在不增加成本的情况下融合更多的功能,第三,与PANet不同的是,它只有一个自顶向下和一个自下而上的路径,我们将每个双向路径作为一个特征网络层处理,并多次重复同一层以实现更高级别的特征融合。

3.3. Weighted Feature Fusion

以往的特征融合方法不加区别的对待所有输入特征。然而,我们发现,由于不同的输入特征在不同的分辨率下,它们对输出的特征往往是不相等的,为了解决这个问题,我们建议在特征融合期间为每个输入增加一个额外权重,并让网络了解每个输入特性的重要性,我们考虑了三种加权融合方法:

*融合
EfficientDet
其中wi是一个可学习的权重,可以是标量、向量或者多维张量,我们发现一个标量可以以最小的计算成本达到与其他方法相当的精度。然而,由于标量权重是无限的,它可能会导致戌年不稳定,因此,我们采用加权归一化的方法来确定每个权重的取值范围,

Softmax融合:
EfficientDet
一个直观的想法是将Softmax应用于每个权重,从而将所有权重归一化为一个概率,其范围为0到1,代表每个输入的重要性,但是Softmax导致GPU硬件的显著减速,为了减少额外的延迟开销,我们进一步提出了一种快速融合的方法。

快速归一化融合
EfficientDet
其中,在每个wi之后应用Relu确保wi>0,且 = 0.0001是为了避免数值不稳定的一个小值,同样每个归一化权重的值也在0到1之间,但是由于这里没有Softmax运算,所以效率很高,我们的消融实验表明这种快速的融合方法与Softmax的方法具有差不多的准确性,但速度更快。
EfficientDet
为了进一步提高效率,我们使用DW可分离卷积来进行特征融合,并在每次卷积后增加BN和**函数。

4. EfficientDet
EfficientDet
EfficientDet