目标检测之SSD学习笔记

SSD学习笔记

惯例，先放大佬链接（https://zhuanlan.zhihu.com/p/31427288）
SSD，全称Single Shot MultiBox Detector，是Wei Liu在ECCV 2016上提出的一种目标检测算法，截至目前是主要的检测框架之一，相比Faster RCNN有明显的速度优势，相比YOLO又有明显的mAP优势。（当然YOLOv3是比不过了）
目标检测之SSD学习笔记

SSD具有如下主要特点：

1、从YOLO中继承了将detection转化为regression的思路，一次完成目标定位与分类
2、基于Faster RCNN中的Anchor，提出了相似的Prior box；
3、加入基于特征金字塔（Pyramidal Feature Hierarchy）的检测方式，即在不同感受野的feature map上预测目标

本文接下来都以SSD 300为例进行分析。
目标检测之SSD学习笔记
上图2是原论文中的SSD300与YOLO网络结构图。位什么要把SSD与YOLO对比呢？因为截止到目前目标检测分为了2种主流框架：
1、Two stages：以Faster RCNN为代表，即RPN网络先生成proposals目标定位，再对proposals进行classification+bounding box regression完成目标分类。
2、Single shot：以YOLO/SSD为代表，一次性完成classification+bounding box regression。
那么来看同为Single shot方式的SSD/YOLO区别（有不清楚的可以看一下我的YOLO和faster-rcnn）：

1、YOLO在卷积层后接全连接层，即检测时只利用了最高层Feature maps（包括Faster RCNN也是如此）
2、SSD采用金字塔结构，即利用了conv4-3/conv-7/conv6-2/conv7-2/conv8_2/conv9_2这些大小不同的feature maps，在多个feature maps上同时进行softmax分类和位置回归
3、SSD还加入了Prior box
对比如图3。
目标检测之SSD学习笔记

2 Prior Box

在SSD300中引入了Prior Box，实际上与Faster RCNN Anchor非常类似，就是一些目标的预选框，后续通过classification+bounding box regression获得真实目标的位置。

SSD按照如下规则生成prior box：

1、以feature map上每个点的中点为中心，生成一些列同心的prior box
2、正方形prior box最小边长为和最大边长为：
目标检测之SSD学习笔记

但是，我们用公式推到出来的值与作者实际设置的值并不能匹配得上（真无语，玄学炼丹，名不虚传。。。）。

不过依然可以看出：SSD使用感受野小的feature map检测小目标，使用感受野大的feature map检测更大目标。
知道了priorbox如何产生，接下来分析prior box如何使用。这里还是以conv4_3分析。
目标检测之SSD学习笔记
从图5可以看到，在conv4_3网络分为了3条线路（这里很重要！！！，后面会再次提到！！！）：
1、经过一次batch norm+一次卷积后，生成了[1, num_class*num_priorbox, layer_height, layer_width]大小的feature用于softmax分类目标和非目标（其中num_class是目标类别，SSD300中num_class = 21，即20个类别+1个背景)

2、经过一次batch norm+一次卷积后，生成了[1, 4*num_priorbox, layer_height, layer_width]大小的feature用于bounding box regression（即每个点一组[dxmin，dymin，dxmax，dymax]，参考Faster R-CNN 2.5节）

3、生成了[1,2,4num_priorboxlayer_height*layer_width]大小的prior box blob，其中2个channel分别存储prior box的4个点坐标(x1, y1, x2, y2)和对应的4个参数variance

后续通过softmax分类判定Prior box是否包含目标，然后再通过bounding box regression即可可获取目标的精确位置，熟悉Faster RCNN的读者应该对上述过程应该并不陌生。其实pribox box的与Faster RCNN中的anchor非常类似，都是目标的预设框，没有本质的差异。区别是每个位置的prior box一般是4~6个（后面会提到！！！），少于Faster RCNN默认的9个anchor；同时prior box是设置在不同尺度的feature maps上的，而且大小不同。

还有一个细节就是上面prototxt中的4个variance，这实际上是一种bounding regression中的权重。在图4线路(2)中，网络输出[dxmin，dymin，dxmax，dymax]，即对应下面代码中bbox；然后利用如下方法进行针对prior box的位置回归：

decode_bbox->set_xmin(
prior_bbox.xmin() + prior_variance[0] * bbox.xmin() * prior_width);
decode_bbox->set_ymin(
prior_bbox.ymin() + prior_variance[1] * bbox.ymin() * prior_height);
decode_bbox->set_xmax(
prior_bbox.xmax() + prior_variance[2] * bbox.xmax() * prior_width);
decode_bbox->set_ymax(
prior_bbox.ymax() + prior_variance[3] * bbox.ymax() * prior_height);

3 SSD的数据流

对于新学习SSD的人，肯定有一个很大的困惑，就是这么多feature maps和Prior Box，如何组合在一起进行forwards/backwards。本节专门介绍SSD的数据流动方式，也许有点难。但是只有了解SSD的数据流动方式才能真的理解。
那么多个feature maps如何协同工作？这时候就要用到Permute，Flatten和Concat这3种层了。
Permute是SSD中自带的层，上面conv4_3_norm_mbox_conf_perm的的定义。Permute相当于交换caffe blob中的数据维度。在正常情况下caffe blob的顺序为：

bottom blob = [batch_num, channel, height, width]

经过conv4_3_norm_mbox_conf_perm后的caffe blob为：

top blob = [batch_num, height, width, channel]

而Flattlen和Concat层都是caffe自带层，请参照caffe official documentation理解。
目标检测之SSD学习笔记
那么接下来以conv4_3和fc7为例分析SSD是如何将不同size的feature map组合在一起进行prediction。图7展示了conv4_3和fc7合并在一起的过程中caffe blob shape变化（其他层类似，考虑到图片大小没有画出来，请脑补）。
这里与上面的红色字体部分相呼应！！！

1、对于conv4_3 feature map，conv4_3_norm_priorbox（priorbox层）设置了每个点共有4个prior box。由于SSD 300共有21个分类，所以conv4_3_norm_mbox_conf的channel值为num_priorbox * num_class = 4 * 21 = 84；而每个prior box都要回归出4个位置变换量，所以conv4_3_norm_mbox_loc的caffe blob channel值为4 * 4 = 16。
2、fc7每个点有6个prior box，其他feature map同理。
3、经过一系列图7展示的caffe blob shape变化后，最后拼接成mbox_conf和mbox_loc。而mbox_conf后接reshape，再进行softmax（为何在softmax前进行reshape，Faster RCNN有提及）。
4、最后这些值输出detection_out_layer，获得检测结果
可以看到，SSD一次判断priorbox到底是背景 or 是20种目标类别之一，相当于将Faster R-CNN的RPN与后续proposal再分类进行了整合。
目标检测之SSD学习笔记

4 SSD网络结构优劣分析

SSD算法的优点应该很明显：运行速度可以和YOLO媲美，检测精度可以和Faster RCNN媲美。除此之外，还有一些鸡毛蒜皮的优点，不解释了。这里谈谈缺点：

1、需要人工设置prior box的min_size，max_size和aspect_ratio值。网络中prior box的基础大小和形状不能直接通过学习获得，而是需要手工设置。而网络中每一层feature使用的prior box大小和形状恰好都不一样，导致调试过程非常依赖经验。
2、虽然采用了pyramdial feature hierarchy的思路，但是对小目标的recall依然一般，并没有达到碾压Faster RCNN的级别。作者认为，这是由于SSD使用conv4_3低级feature去检测小目标，而低级特征卷积层数少，存在特征提取不充分的问题。

5 SSD训练过程

目标检测之SSD学习笔记
Matching strategy：

在训练时，groundtruth boxes 与 default boxes（就是prior boxes）按照如下方式进行配对：

1、首先，寻找与每一个ground truth box有最大的jaccard overlap的default box，这样就能保证每一个groundtruth box与唯一的一个default box对应起来（所谓的jaccard overlap就是IoU，如图9）。
2、SSD之后又将剩余还没有配对的default box与任意一个groundtruth box尝试配对，只要两者之间的jaccard overlap大于阈值，就认为match（SSD 300 阈值为0.5）。
3、显然配对到GT的default box就是positive，没有配对到GT的default box就是negative。

Hard negative mining：

值得注意的是，一般情况下negative default boxes数量>>positive default boxes数量，直接训练会导致网络过于重视负样本，从而loss不稳定。所以需要采取：

所以SSD在训练时会依据confidience score排序default box，挑选其中confidence高的box进行训练，控制positive : negative $=1: 3$ （这里跟Faster-rcnn基本一致，至于为什么这样做，是为了消除正负样本不均衡的问题，具体可以查看我的这篇博客）
Data augmentation：（这里说了很多，其实就是一个常规的Random crop）

数据增广。即对每一张image进行如下之一变换获取一个patch进行训练：

直接使用原始的图像（即不进行变换）
采样一个patch，保证与GT之间最小的IoU为：0.1，0.3，0.5，0.7 或 0.9
完全随机的采样一个patch。
目标检测之SSD学习笔记
同时在原文中还提到：

采样的patch占原始图像大小比例在 [0.1,1]之间
采样的patch的长宽比在 [0.5,2]之间
当 Ground truth box中心恰好在采样的patch中时，保留整个GT box
最后每个patch被resize到固定大小，并且以0.5的概率随机的水平翻转
最终以这些处理好的patches进行训练。

其实Matching strategy，Hard negative mining，Data augmentation，都是为了加快网络收敛而设计的。尤其是Data augmentation，翻来覆去的randomly crop，保证每一个prior box都获得充分训练而已。后续有Focal loss解决这个问题。