M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

名称:M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

文献类型:目标检测

年份:2018

要解决的问题:提出了更快更好的网络

问题存在的原因:目前的目标检测网络都有局限性,原因在于它们只是基于物体分类的主干网络的固有尺度,简单地构建特征金字塔

解决的途径/方法:

提出了MLFPN(Multi-level Feature Pyramid Network)用以更好地提取特征:

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

FFMv1融合backbone网络两个不同尺度的特征图,生成Base feature,再将Base feature送入TUM中:

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

                                                                                      图:TUM

生成最浅层的特征金字塔。将TUM的最大尺度的特征图输出再与Base feature利用FFMv2融合,再次送入下一个TUM:

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

                                                                                      图:FFMv2

生成下一层次的特征金字塔。

如此一来,可以生成大小相同而语义信息完全不同的特征金字塔。

最后在SFAM模块进行特征融合:

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

                                                                                      图:SFAM

将相同尺度,不同深度的特征图堆叠在一起,经过Global Average Pooling和Reweighting等操作产生最终的特征图。

为何MLFPN有用?

在今年来的目标检测网络结构中,我们可以看到一个矛盾:语义信息更强的特征图总是尺度过小。科研工作者们一直致力于解决这个问题,而MLFPN或许就是一个答案。在每一个尺度上,网络都利用不同深度的多层的特征去检测物体。即作者认为,物体的语义复杂度与它在图中的大小没有必然关系,还是物体本身起了决定性的作用。

讨论:

在文章的最后,作者也利用卷积可视化技术讨论(证明)了MLFPN起作用的原因:

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

在图中,人、车、红绿灯的大小是类似的,而红绿灯在很浅的层**值很大,车次之,人在很深的层**度最大。相同大小的物体为何有如此区别?答案即为物体本身的复杂度不同,因此检测需要的深度不同。很明显的人复杂度最高,车次之,红绿灯最低。检测人的存在需要在语义信息很重的深层特征图中去检测!