SSD: Single Shot MultiBox Detector

SSD核心设计理念总结为以下三点：

1.采用多尺度特征图用于检测
2.采用卷积进行检测
3.设置先验框

所谓多尺度采用大小不同的特征图，CNN网络一般前面的特征图比较大，后面会逐渐采用stride=2的卷积或者pool来降低特征图大小，正如下所示，一个比较大的特征图和一个比较小的特征图，它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标，而小的特征图负责检测大目标， 8x8的特征图可以划分更多的单元，但是其每个单元的先验框尺度比较小。

SSD: Single Shot MultiBox Detector
在Yolo中，每个单元预测多个边界框，但是其都是相对这个单元本身（正方块），但是真实目标的形状是多变的，Yolo需要在训练过程中自适应目标的形状。而SSD借鉴了Faster R-CNN中anchor的理念，每个单元设置尺度或者长宽比不同的先验框，预测的边界框（bounding boxes）是以这些先验框为基准的，在一定程度上减少训练难度。一般情况下，每个单元会设置多个先验框，其尺度和长宽比存在差异，如图所示，可以看到每个单元使用了4个不同的先验框，图片中猫和狗分别采用最适合它们形状的先验框来进行训练，后面会详细讲解训练过程中的先验框匹配原则。
SSD: Single Shot MultiBox Detector

SSD的检测值也与Yolo不太一样

对于每个单元的每个先验框，其都输出一套独立的检测值，对应一个边界框，主要分为两个部分。

第一部分是各个类别的置信度或者评分，值得注意的是SSD将背景也当做了一个特殊的类别，如果检测目标共有 |c|个类别，SSD其实需要预测 |c+1|个置信度值，其中第一个置信度指的是不含目标或者属于背景的评分。

第二部分就是边界框的location，包含4个值（cx，cy，w，h），分别表示边界框的中心坐标以及宽高。

网络结构

SSD采用VGG16作为基础模型，然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测。

总结

总的来说SSD在大目标检测上表现的比较好，但是在小目标检测上均比较低，SSD最低。

大目标：首选SSD。Faster R-CNN也可以。

小目标：Faster R-CNN，R-FCN

SSD: Single Shot MultiBox Detector

SSD的检测值也与Yolo不太一样

网络结构

总结

相关推荐