特征金字塔网络 FPN
一. 提出背景
论文:Feature Pyramid Networks for Object Detection 【点击下载】
在传统的图像处理方法中,金字塔是比较常用的一种手段,像 SIFT 基于金字塔做了多层的特征采集,对于深度网络来讲,其原生的卷积网络特征决定了天然的金字塔结构。深度网络在目标检测领域的应用 比如早期的 Fast RCNN,Faster RCNN 都是在最后一层卷积层 进行检测,后续针对的改进包括 ION、HyperNet、MSCNN 等都结合多尺度的特征,本文讨论了多尺度的方案对比:
a)传统方法,通过对图像进行降采样处理,提取每层图像的特征,然后在每层预测;
b)借助卷积网络,通过单特征图进行预测,典型的应用包括 Faster RCNN、YOLO;
原 Paper 少了一张图,这里补上(b2),将多个层的特征同时连接到预测层,ION、HyperNet 都是这个思路。
c)通过不同尺度的特征图进行分别预测,更好的处理目标的多尺度问题;
典型的代表是 SSD、MS CNN。
d)本文提出的 FPN 方法,在多尺度特征图的基础上,结合右侧的上采样进行不同 Scale 的整合,每层独立预测;
通过 本层信息(上采样)+原始特征层信息(侧向连接)进行结合;
二. 算法框架
提出了一种新的多尺度网络结构,这个网络结构可以理解为三个组成部分:
1)Bottom-Up Pathway
原生态的金字塔,所有的 ConvNet 都具备的特征,不需要多讲,这里作者选择的是每个Stage 的最后一层作为特征层,这里的 Stage 是指尺寸发生变化的情况。
2)Top-Down Pathway
对应特征图的上采样,思路是通过上采样提取更 Strong 的语义信息,同时上采样带来的是某些信息的丢失。
3)Lateral Connection
侧向连接是将原始的特征信息整合到右侧上采样特征层,原始特征代表了准确的 Location 信息。
通过 Top-Down(更强的语义信息) 和 侧向连接(准确的Loc)的结合,兼顾底层特征和抽象语义,连接方式可以这样描述:
Top-Down 通过2倍的上采样连接,侧向连接通过 1x1 的卷积进行连接,通过 Add 操作进行 Merge。
三. 实验分析
作者分别对比了 RPN 和 Fast R-CNN 的测试精度,分析 侧向连接 和 Top-Down 对于精度的贡献,来看对比表格:
可以看到,本方法(FPN)精度是最高,Lateral 和 Top-Down 对于精度的贡献都比较明显。