相信阅读了YOLO v3论文的小伙伴们会发现为什么这次的论文篇幅这么少？除去参考文献就四面？Excuse me？我是下了篇假文献吧。读完后感觉内容确实不多，而且总感觉写的不够细致，很多地方都比较模糊，可能是作者想让大家去观摩他的代码吧。

本人是小白，看后表示有点蒙。于是在Github上搜了大牛们基于Tensorflow搭建的YOLOv3模型进行分析（本人只接触过TF，所以就不去看源码了）。接下来我会根据我阅读的代码来进一步分析网络的结构。

1.Darknet-53 network

在论文中虽然有给网络的图，但我还是简单说一下。这个网络主要是由一系列的1x1和3x3的卷积层组成（每个卷积层后都会跟一个BN层和一个LeakyReLU)层，作者说因为网络中有53个convolutional layers，所以叫做Darknet-53（我数了下，作者说的53包括了全连接层但不包括Residual层）。下图就是Darknet-53的结构图，在右侧标注了一些信息方便理解。（卷积的strides默认为（1，1），padding默认为same，当strides为（2，2）时padding为valid）

YOLO v3网络结构分析

看完上图应该就能自己搭建出Darknet-53的网络结构了，上图是以输入图像256 x 256进行预训练来进行介绍的，常用的尺寸是416 x 416，都是32的倍数。下面我们再来分析下YOLOv3的特征提取器，看看究竟是在哪几层Features上做的预测。

2.Feature Extractor

作者在论文中提到利用三个特征层进行边框的预测，具体在哪三层我感觉作者在论文中表述的并不清楚（例如文中有“添加几个卷积层”这样的表述），同样根据代码我将这部分更加详细的分析展示在下图中。

YOLO v3网络结构分析

在上图中我们能够很清晰的看到三个预测层分别来自的什么地方，以及Concatenate层与哪个层进行拼接。通过上图小伙伴们就能更加容易地搭建出YOLOv3的网络框架了。

对于文章的其他部分，例如损失的计算之类的有空在写写，文章中也表述的比较清除。希望对大家有用。

YOLO v3网络结构分析

1.Darknet-53 network

2.Feature Extractor

相关推荐