简述YOLOV1 YOLOV2 YOLOV3

Yolov1

一概述

YOLOv1在最后使用全连接层进行类别输出，因此全连接层的输出维度是S×S×(B×5+C)。

A:Yolo将输入的图像分成S×S个grid

B:每个grid预测B个bounding box(4)以及置信度(1)，以及C个类别概率。其中，bounding box的信息（x, y, w, h）为object的中心位置相对格子位置的偏移和宽度及高度。

缺点

A:输入图像的尺寸是固定的：因为全连接层的关系

B：每个grid最多只能预测出一个Object

二训练

（1）预训练

训练YOLO网络的前20个卷积层+1个average池化层+1个全连接层。

数据集：ImageNet 1000 类数据

图像分辨率224 X 224

训练

预训练得到的前20个卷积层网络参数来初始化YOLO模型前20个卷积层的网络参数，然后进行YOLO模型训练。

数据集：VOC 20 类数据
图像分辨率448 X 448

Yolov2

简述YOLOV1 YOLOV2 YOLOV3

yoloV2主要改进：提高定位能力和召回率

（1）YOLO v2用k-means在训练集bounding box上进行聚类产生合适的先验框.
（2）多尺度训练：YOLOv2的网络使用的downsamples倍率为32，因此使用32的倍数调整输入图像尺寸{320,352，…，608}。训练使用的最小的图像尺寸为320 x 320，最大的图像尺寸为608 x 608。

（3）BN：在卷积层全部使用Batch Normalization；v2中取消了dropout

用于检测网络的训练：448 X448

YOLOV2提出的分类模型Darknet-19：19 conv + 5 maxpooling

简述YOLOV1 YOLOV2 YOLOV3

YOLOV3

YOLOv3不使用Softmax对每个框进行分类
多尺度预测

基础网络 Darknet-53结构如下：

简述YOLOV1 YOLOV2 YOLOV3

参数anchors指定kmeans计算出来的anchor box的长宽的绝对值(与网络输入大小相关)。num参数为anchor box的数量。

简述YOLOV1 YOLOV2 YOLOV3

Yolov1

Yolov2

YOLOV3

相关推荐