FPN学习笔记

先放一下翻译的不错的文章链接：
翻译版
 原文
首先FPN解决的问题就是现有的神经网络对小目标特征的不敏感的问题。
先放图！识别不同大小的物体是计算机视觉中的一个基本挑战，我们常用的解决方案是构造多尺度金字塔。
（a）这是一个特征图像金字塔，整个过程是先对原始图像构造图像金字塔，然后在图像金字塔的每一层提出不同的特征，然后进行相应的预测（BB的位置）。这种方法的缺点是计算量大，需要大量的内存；优点是可以获得较好的检测精度。它通常会成为整个算法的性能瓶颈，由于这些原因，当前很少使用这种算法。
（b），这是一种改进的思路，学者们发现我们可以利用卷积网络本身的特性，即对原始图像进行卷积和池化操作，通过这种操作我们可以获得不同尺寸的feature map，这样其实就类似于在图像的特征空间中构造金字塔。实验表明，浅层的网络更关注于细节信息，高层的网络更关注于语义信息，而高层的语义信息能够帮助我们准确的检测出目标，因此我们可以利用最后一个卷积层上的feature map来进行预测。这种方法存在于大多数深度网络中，比如VGG、ResNet、Inception，它们都是利用深度网络的最后一层特征来进行分类。这种方法的优点是速度快、需要内存少。它的缺点是我们仅仅关注深层网络中最后一层的特征，却忽略了其它层的特征，但是细节信息可以在一定程度上提升检测的精度。
（c），它的设计思想就是同时利用低层特征和高层特征，分别在不同的层同时进行预测，这是因为我的一幅图像中可能具有多个不同大小的目标，区分不同的目标可能需要不同的特征，对于简单的目标我们仅仅需要浅层的特征就可以检测到它，对于复杂的目标我们就需要利用复杂的特征来检测它。整个过程就是首先在原始图像上面进行深度卷积，然后分别在不同的特征层上面进行预测。它的优点是在不同的层上面输出对应的目标，不需要经过所有的层才输出对应的目标（即对于有些目标来说，不需要进行多余的前向操作），这样可以在一定程度上对网络进行加速操作，同时可以提高算法的检测性能。它的缺点是获得的特征不鲁棒，都是一些弱特征（因为很多的特征都是从较浅的层获得的）。
（d）讲了这么多终于轮到我们的FPN啦，FPN分为三个部分：自底向上，自顶向下和侧向链接。
FPN学习笔记
下面我们来具体讲一下怎么进行这三步：
看下图，我们的basebone是一个resnet。自底向上就是正常的resnet提取特征，自顶向下就是，C5层先经过1x1卷积，得到M5特征。M5通过上采样（上采样，双线性差值等自己百度吧），再加上C4经过1x1卷积后的特征，得到M4（起初我一直不明白，怎么加，后来知道了，按元素直接加就行，因为经过上采样和1x1卷积以后的两张图尺寸是一样的。）。这个过程再做两次，分别得到M3和M2。M层特征再经过3x3卷积，得到最终的P2、P3、P4、P5层特征。另外，和传统的图像金字塔方式一样，所有M层的通道数都设计成一样的，本文都用d=256。至于rpn的话多了一个p6。（注意：
1、1x1卷积的作用？1x1的卷积我认为有三个作用：使bottom-up对应层降维至256；缓冲作用，防止梯度直接影响bottom-up主干网络，更稳定；组合特征。
2、不同深度的 feature map 为什么可以经过 upsample 后直接相加？
作者解释说这个原因在于我们做了 end-to-end 的 training，因为不同层的参数不是固定的，不同层同时给监督做 end-to-end training，所以相加训练出来的东西能够更有效地融合浅层和深层的信息。

FPN学习笔记
3、为什么 FPN 相比去掉深层特征 upsample(bottom-up pyramid) 对于小物体检测提升明显？（RPN 步骤 AR 从 30.5 到 44.9，Fast RCNN 步骤 AP 从 24.9 到 33.9）？

4、测向连接的作用？
如果不进行特征的融合（也就是说去掉所有的1x1侧连接），虽然理论上分辨率没变，语义也增强了，但是AR下降了10%左右！作者认为这些特征上下采样太多次了，导致它们不适于定位。Bottom-up的特征包含了更精确的位置信息。

5、如何确定某个 ROI 使用哪一层特征图进行 ROIpooling ?
作者将FPN的各个特征层类比为图像金字塔的各个level的特征，从而将不同尺度的RoI映射到对应的特征层上。以224大小的图片输入为例，宽高为w和h的RoI将被映射到的特征级别为k，它的计算公式如下：
FPN学习笔记
举个例子：224是ImageNet的标准输入，k0是基准值，设置为5，代表P5层的输出（原图大小就用P5层），w和h是ROI区域的长和宽，image_area是输入图片的长乘以宽，即输入图片的面积，假设ROI是112 * 112的大小，那么k = k0-1 = 5-1 = 4，意味着该ROI应该使用P4的特征层。k值会做取整处理，防止结果不是整数。
至此，基本上FPN就讲完了。

FPN学习笔记

FPN学习笔记

相关推荐