深度学习 -- YOLO 算法流程详解

YOLO同样是经典论文，后续很多论文以此为基础，例如YOLO9000、YOLOv3等，如果有写的不对、有问题或者看不懂的地方，还望指正。如果有了新的理解，我会持续更新。

文章2016年发表，当时的视觉检测模型有两个问题，一个是速度快但是准确率差，另一种是准确率高但是速度很慢（faster rcnn 当时只有 3 - 5 FPS）。这类，无论在学术界还是工程界，都有很大的改进空间。作者为此提出了YOLO。

不说没用的，还是主要看目标检测的部分和YOLO本身的特点。

首先看YOLO的工作流程：

深度学习 -- YOLO 算法流程详解

上图是原文中的，工作流程分成三个步骤：

缩放图像
将图像过全卷积神经网络
利用极大值抑制（NMS）进行筛选

然后来看算法的具体流程。

一、图像分割

在YOLO中，一张输入图像首先被分成了 S × S 个均等大小的栅格，每一个格子都称作一个 grid cell。

深度学习 -- YOLO 算法流程详解

上图中左图作为输入图像，被分成了 7 × 7 个小的栅格，后续的工作和这些栅格息息相关。

二、 Bounding boxes 预测

从上图中也能看出，分割后的图像分成两路来处理，

1. 先看 bounding boxes + confidence 。在这一步中，YOLO 为每一个栅格给出了两个预测框，这里有点像faster rcnn 的anchor ，但不完全相同。YOLO给出的预测框，是基于栅格中心点的，大小自定义。每一个栅格预测 B 个bounding boxes，每个bounding boxes 有四个坐标和一个置信度，所以最终的预测结果是 S × S × (B ∗ 5 + C）个向量。原文中的 B= 2，意思是有两个预选框，C = 20，表示有20种类别，S = 7。

2. 再看第二个class probablity map，这一路的工作其实是和上一部一同进行的，负责的是栅格的类别，预测的结果一样是放在最后的 7 × 7 × 30 的结果中

三、网络结构：

深度学习 -- YOLO 算法流程详解