M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid

论文链接:M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid

主要贡献:

提出多级特征金字塔网络MLFPN。
基于提出的MLFPN,结合SSD,提出一种新的Single-shot目标检测模型M2Det。

整体框架

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid
M2Det使用主干网络和MLFPN来提取特征,然后采用类似SSD的方式预测框和类别得分,通过NMS得到最后的检测结果。
首先,通过FFM v1对主干网络提取到的特征进行融合;
然后,通过TUM和FFM v2提取更有代表性的Multi-level&Mutli-scale特征;
最后,通过SFAM融合多级特征,得到多级特征金字塔用于最终阶段的预测。

FFM

特征融合模块FFM: 用于融合M2Det中不同级别的特征,先通过1x1卷积压缩通道数,再进行拼接。
FFMv1使用两种不同尺度的特征图作为输入,所以在拼接之前加入了上采样来调整大小;FFMv2的两个输入的尺度相同。
M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid

TUM

细化U型模块TUM:使用了比FPN和RetinaNet更薄的U型网络。在上采样和元素相加操作后加上1x1卷积来加强学习能力和保持特征平滑度。TUM中每个解码器的输出共同构成了多尺度输出。每个TUM的输出共同构成了多级别、多尺度特征,前面的TUM提供低级别,后面的TUM提供高级别特征。
M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid

SFAM

尺度特征聚合模块SFAM:旨在聚合TUMs产生的多级、多尺度特征,以构造一个多级特征金字塔。
第一阶段,沿通道维度将有相同尺度的特征图进行拼接,这样得到的每个尺度的特征包含了多个级别的信息。
第二阶段,借鉴SENet的思想,加入channel-wise attention,以更好地捕捉有用的特征。
M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid