特征金字塔网络 FPN

一. 提出背景

论文：Feature Pyramid Networks for Object Detection 【点击下载】

在传统的图像处理方法中，金字塔是比较常用的一种手段，像 SIFT 基于金字塔做了多层的特征采集，对于深度网络来讲，其原生的卷积网络特征决定了天然的金字塔结构。深度网络在目标检测领域的应用比如早期的 Fast RCNN，Faster RCNN 都是在最后一层卷积层进行检测，后续针对的改进包括 ION、HyperNet、MSCNN 等都结合多尺度的特征，本文讨论了多尺度的方案对比：

特征金字塔网络 FPN

a）传统方法，通过对图像进行降采样处理，提取每层图像的特征，然后在每层预测；

b）借助卷积网络，通过单特征图进行预测，典型的应用包括 Faster RCNN、YOLO；

原 Paper 少了一张图，这里补上（b2），将多个层的特征同时连接到预测层，ION、HyperNet 都是这个思路。

c）通过不同尺度的特征图进行分别预测，更好的处理目标的多尺度问题；

典型的代表是 SSD、MS CNN。

d）本文提出的 FPN 方法，在多尺度特征图的基础上，结合右侧的上采样进行不同 Scale 的整合，每层独立预测；

通过本层信息（上采样）＋原始特征层信息（侧向连接）进行结合；

二. 算法框架

提出了一种新的多尺度网络结构，这个网络结构可以理解为三个组成部分：

1）Bottom-Up Pathway

原生态的金字塔，所有的 ConvNet 都具备的特征，不需要多讲，这里作者选择的是每个Stage 的最后一层作为特征层，这里的 Stage 是指尺寸发生变化的情况。

2）Top-Down Pathway

对应特征图的上采样，思路是通过上采样提取更 Strong 的语义信息，同时上采样带来的是某些信息的丢失。

3）Lateral Connection

侧向连接是将原始的特征信息整合到右侧上采样特征层，原始特征代表了准确的 Location 信息。

通过 Top-Down（更强的语义信息）和侧向连接（准确的Loc）的结合，兼顾底层特征和抽象语义，连接方式可以这样描述：

Top-Down 通过2倍的上采样连接，侧向连接通过 1x1 的卷积进行连接，通过 Add 操作进行 Merge。

三. 实验分析

作者分别对比了 RPN 和 Fast R-CNN 的测试精度，分析 侧向连接 和 Top-Down 对于精度的贡献，来看对比表格：

特征金字塔网络 FPN

可以看到，本方法（FPN）精度是最高，Lateral 和 Top-Down 对于精度的贡献都比较明显。

特征金字塔网络 FPN

相关推荐