目标检测之Fast R-CNN
一、目标检测之Fast R-CNN
Fast R-CNN
论文链接:http://arxiv.org/abs/1504.08083
论文翻译:https://blog.****.net/xiaqunfeng123/article/details/78716060
论文详解:https://blog.****.net/wopawn/article/details/52463853
二、Fast R-CNN算法
1、优势:(1)检测精度更高(比R-CNN/SPPnet);(2)训练统一,训练是使用多任务损失的单阶段训练;(3)训练可以更新所有网络层参数;(4)不需要磁盘空间缓存特征。
2、算法结构
步骤:
- 任意size图片输入CNN网络,经过若干卷积层与池化层,得到特征图;
- 在任意size图片上采用selective search算法提取约2k个建议框(与R-CNN类似);
- 根据原图中建议框到特征图映射关系,在特征图中找到每个建议框对应的特征框【深度和特征图一致】,并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】的size;
- 固定H×W【VGG-16网络是7×7】大小的特征框经过全连接层得到固定大小的特征向量;
- 第4步所得特征向量经由各自的全连接层【SVD分解实现,用SVD奇异值分解算法加速全连接层计算】,分别得到两个输出向量:一个是softmax的分类得分:K个目标类别+1个背景类别;一个是Bounding-box窗口回归:K个目标类别的精细边框位置,每个位置有四个数值(r,c,h,w),(r,c)为左上角坐标,(h,w)为边框的高和宽;
- 利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框,最终得到每个类别中回归修正后的得分最高的窗口。
三、Fast R-CNN不足
纵使Fast RCNN与RCNN相比提升了不少,但是Fast RCNN仍旧有许多不足之处:因为Fast RCNN使用的是selective search选择性搜索,这一过程十分耗费时间,其进行候选区域提取所花费的时间约为2~3秒,而提取特征分类仅需要0.32秒,这会造成无法满足实时应用需求,而且因为使用selective search来预先提取候选区域,Fast RCNN并没有实现真正意义上的端到端训练模式,因此在众人的努力下,Faster RCNN应运而生。