简述YOLOV1 YOLOV2 YOLOV3
Yolov1
一 概述
- YOLOv1在最后使用全连接层进行类别输出,因此全连接层的输出维度是S×S×(B×5+C)。
A:Yolo将输入的图像分成S×S个grid
B:每个grid预测B个bounding box(4)以及置信度(1),以及C个类别概率。其中,bounding box的信息(x, y, w, h)为object的中心位置相对格子位置的偏移和宽度及高度。
- 缺点
A:输入图像的尺寸是固定的:因为全连接层的关系
B:每个grid最多只能预测出一个Object
二 训练
(1)预训练
训练YOLO网络的前20个卷积层+1个average池化层+1个全连接层。
数据集:ImageNet 1000 类数据
图像分辨率224 X 224
- 训练
预训练得到的前20个卷积层网络参数来初始化YOLO模型前20个卷积层的网络参数,然后进行YOLO模型训练。
数据集:VOC 20 类数据
图像分辨率448 X 448
Yolov2
yoloV2主要改进:提高定位能力和召回率
(1)YOLO v2用k-means在训练集bounding box上进行聚类产生合适的先验框.
(2)多尺度训练:YOLOv2的网络使用的downsamples倍率为32,因此使用32的倍数调整输入图像尺寸{320,352,…,608}。训练使用的最小的图像尺寸为320 x 320,最大的图像尺寸为608 x 608。
(3)BN:在卷积层全部使用Batch Normalization;v2中取消了dropout
- 用于检测网络的训练:448 X448
YOLOV2提出的分类模型Darknet-19:19 conv + 5 maxpooling
YOLOV3
- YOLOv3不使用Softmax对每个框进行分类
- 多尺度预测
基础网络 Darknet-53结构如下:
参数anchors指定kmeans计算出来的anchor box的长宽的绝对值(与网络输入大小相关)。num参数为anchor box的数量。