M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

名称：M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

文献类型：目标检测

年份：2018

要解决的问题：提出了更快更好的网络

问题存在的原因：目前的目标检测网络都有局限性，原因在于它们只是基于物体分类的主干网络的固有尺度，简单地构建特征金字塔

解决的途径/方法：

提出了MLFPN（Multi-level Feature Pyramid Network）用以更好地提取特征：

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

FFMv1融合backbone网络两个不同尺度的特征图，生成Base feature，再将Base feature送入TUM中：

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

图：TUM

生成最浅层的特征金字塔。将TUM的最大尺度的特征图输出再与Base feature利用FFMv2融合，再次送入下一个TUM：

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

图：FFMv2

生成下一层次的特征金字塔。

如此一来，可以生成大小相同而语义信息完全不同的特征金字塔。

最后在SFAM模块进行特征融合：

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

图：SFAM

将相同尺度，不同深度的特征图堆叠在一起，经过Global Average Pooling和Reweighting等操作产生最终的特征图。

为何MLFPN有用？

在今年来的目标检测网络结构中，我们可以看到一个矛盾：语义信息更强的特征图总是尺度过小。科研工作者们一直致力于解决这个问题，而MLFPN或许就是一个答案。在每一个尺度上，网络都利用不同深度的多层的特征去检测物体。即作者认为，物体的语义复杂度与它在图中的大小没有必然关系，还是物体本身起了决定性的作用。

讨论：

在文章的最后，作者也利用卷积可视化技术讨论（证明）了MLFPN起作用的原因：

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

在图中，人、车、红绿灯的大小是类似的，而红绿灯在很浅的层**值很大，车次之，人在很深的层**度最大。相同大小的物体为何有如此区别？答案即为物体本身的复杂度不同，因此检测需要的深度不同。很明显的人复杂度最高，车次之，红绿灯最低。检测人的存在需要在语义信息很重的深层特征图中去检测！

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

名称：M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

文献类型：目标检测

年份：2018

要解决的问题：提出了更快更好的网络

问题存在的原因：目前的目标检测网络都有局限性，原因在于它们只是基于物体分类的主干网络的固有尺度，简单地构建特征金字塔

解决的途径/方法：

为何MLFPN有用？

讨论：

相关推荐