简述YOLOV1 YOLOV2 YOLOV3

Yolov1

一 概述

  1. YOLOv1在最后使用全连接层进行类别输出,因此全连接层的输出维度是S×S×(B×5+C)

A:Yolo将输入的图像分成S×S个grid

B:每个grid预测B个bounding box(4)以及置信度(1),以及C个类别概率。其中,bounding box的信息(x, y, w, h)为object的中心位置相对格子位置的偏移和宽度及高度。

  1. 缺点

A:输入图像的尺寸是固定的:因为全连接层的关系

B:每个grid最多只能预测出一个Object

二 训练

(1)预训练

训练YOLO网络的前20个卷积层+1个average池化层+1个全连接层。

数据集:ImageNet 1000 类数据

图像分辨率224 X 224

  1. 训练

预训练得到的前20个卷积层网络参数来初始化YOLO模型前20个卷积层的网络参数,然后进行YOLO模型训练。

 数据集:VOC 20 类数据
图像分辨率448 X 448

 

Yolov2

简述YOLOV1 YOLOV2 YOLOV3     

yoloV2主要改进:提高定位能力和召回率

(1)YOLO v2用k-means在训练集bounding box上进行聚类产生合适的先验框.
(2)多尺度训练:YOLOv2的网络使用的downsamples倍率为32,因此使用32的倍数调整输入图像尺寸{320,352,…,608}。训练使用的最小的图像尺寸为320 x 320,最大的图像尺寸为608 x 608。

(3)BN:在卷积层全部使用Batch Normalization;v2中取消了dropout

  1. 用于检测网络的训练:448 X448

YOLOV2提出的分类模型Darknet-19:19 conv + 5 maxpooling

简述YOLOV1 YOLOV2 YOLOV3

 

YOLOV3

  1. YOLOv3不使用Softmax对每个框进行分类
  2. 多尺度预测

基础网络 Darknet-53结构如下:

简述YOLOV1 YOLOV2 YOLOV3

参数anchors指定kmeans计算出来的anchor box的长宽的绝对值(与网络输入大小相关)num参数为anchor box的数量