[论文笔记]Enhancement of SSD by concatenating feature maps for object detection

论文:Enhancement of SSD by concatenating feature maps for object detection 
论文链接:https://arxiv.org/abs/1705.09587


出发点:虽然深度网络的效果会随着feature map数量的增加而提升,但并不代表简单地增加feature map的数量就能达到更好的效果。本文利用特征金字塔的原理,通过改进特征融合方式,共享分类网络的不同层的权重,充分利用特征,提升了原有的SSD的算法效果。


传统SSD的不足:

1.在SSD中,不同层的feature map都是独立作为分类网络的输入,因此可能出现相同物体被不同大小的框同时检测出来的情况。

2.对小尺寸物体的检测效果比较差。


针对传统SSD的改进:

1.利用分类网络增加不同层之间的feature map的联系,减少重复框的出现。

2.通过增加不同层之间的联系,来增加每一层的feature map的个数,使其可以检测到更多的小尺寸物体。

[论文笔记]Enhancement of SSD by concatenating feature maps for object detection


特征融合方式:

1.采用pooling的方式进行融合。

举例:对于最左边的38*38的feature map,将其做pooling后和左边第二个的19*19的feature map做连接,这样原来的conv7层就有两个19*19的feature map了。然后再对这两个19*19的feature map做pooiling,再和左边第三个的10*10的feature map做连接......

2.采用deconvolution的方式进行融合。

举例:从最右边的1*1的feature map往左边做concate。因为deconvolution是降维,所以是从右到左;而前面的pooling是降维,所以是从左到右。

3.同时采用pooling和deconvolution的方式进行融合。

前两种融合方式的缺点在于,信息的传递都是单向的,这样分类网络不能够利用其他方向的信息。需要注意的是,不同层的feature map的scale不同,因此在对不同层的feature map做连接之前,都会对feature map做一个normalization操作。论文采用第3种特征融合方式。

通过rainbow concatenation,每一层的feature map的个数都会变成2816个(是512, 1024, 512, 256, 256和256的和)。

[论文笔记]Enhancement of SSD by concatenating feature maps for object detection