【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

《You Only Look Once:Unified, Real-Time Object Detection》

发表会议： CVPR2015

作者：

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Abstract：

我们提出了一种新的物体检测方法YOLO。关于物体检测的先前工作重新使用分类器来执行检测。相反，我们将对象检测作为回归问题构建到空间上分离的边界框和相关的类概率。单个神经网络在一次评估中直接从完整图像预测边界框和类概率。由于整个检测流水线是单个网络，因此可以直接在检测性能上进行端到端优化。

我们的统一架构非常快。我们的基础YOLO模型以每秒45帧的速度实时处理图像。较小版本的网络Fast YOLO每秒处理惊人的155帧，同时仍然实现其他实时检测器的mAP的两倍。与最先进的检测系统相比，YOLO产生更多的定位误差，但不太可能预测背景上的误报。最后，YOLO学习了对象的非常一般的表示。当从自然图像推广到其他领域（如艺术品）时，它优于其他检测方法，包括DPM和R-CNN。

1. Introduction:

人类瞥了一眼图像，立即知道图像中的物体，它们在哪里，以及它们如何相互作用。人类视觉系统快速而准确，使我们能够执行复杂的任务，例如在很少有意识的情况下驾驶。用于物体检测的快速，准确的算法将允许计算机在没有专用传感器的情况下驾驶汽车，使辅助设备能够向人类用户传达实时场景信息，并释放用于通用响应机器人系统的潜力。

当前的检测系统重新利用分类器进行检测。为了检测对象，这些系统为该对象采用分类器并在不同位置对其进行评估并在测试图像中进行缩放。像可变形零件模型（DPM）这样的系统使用滑动窗口方法，其中分类器在整个图像上以均匀间隔的位置运行[10]。

像R-CNN这样的最新方法使用区域提案

1种方法首先在图像中生成潜在的边界框，然后在这些建议的框上运行分类器。分类后，后处理用于重新定义边界框，消除重复检测，并根据场景中的其他对象重新排列框[13]。这些复杂的管道很慢且难以优化，因为每个单独的组件必须单独进行培训。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

图1：YOLO检测系统。使用YOLO处理图像简单明了。我们的系统（1）将输入图像的大小调整为448×448，（2）在图像上运行单个卷积网络，（3）通过模型的信度对得到的检测进行阈值处理。

我们将对象检测重构为单个回归问题，直接从图像像素到边界框坐标和类概率。使用我们的系统，您只需在图像上查看一次（YOLO）即可预测出现的对象和位置。

YOLO简洁明了：参见图1.单个卷积网络同时预测这些盒子的多个边界框和类概率。YOLO训练全图像并直接优化检测性能。这种统一模型与传统的物体检测方法相比有几个好处。

首先，YOLO非常快。由于我们将检测框架作为回归问题，因此我们不需要复杂的管道。我们只是在测试时在新图像上运行我们的神经网络来预测检测。我们的基础网络以每秒45帧的速度运行，Titan X GPU上没有批处理，快速版本的运行速度超过150 fps。这意味着我们可以实时处理流式视频，延迟时间少于25毫秒。此外，YOLO的平均精度是其他实时系统的两倍多。有关我们系统在网络摄像头上实时运行的演示，请参阅我们的项目网页：http：//pjreddie.com/yolo/。

其次，YOLO在做出预测时全局了解图像。与基于滑动窗口和区域提议的技术不同，YOLO在训练和测试时间内查看整个图像，因此它隐式编码有关类的上下文信息及其外观。快速R-CNN是一种*检测方法[14]，它错误地描述了对象中的背景补丁，因为它无法看到更大的上下文。与Fast R-CNN相比，YOLO的背景错误数量不到一半。

第三，YOLO学习对象的一般化表示。在对自然图像进行训练并对艺术作品进行测试时，YOLO大大优于DPM和R-CNN等*检测方法。由于YOLO具有很高的通用性，因此在应用于新域或意外输入时不太可能发生故障。

YOLO在准确性方面仍然落后于最先进的检测系统。虽然它可以快速识别图像中的对象，但它很难精确定位某些对象，特别是小对象。我们在实验中进一步研究了这些权衡。

我们所有的培训和测试代码都是开源的。还可以下载各种预训练模型。

2. Uniﬁed Detection：

我们将对象检测的单独组件统一到单个神经网络中。我们的网络使用整个图像中的特征来预测每个边界框。它还同时预测所有类的所有边界框。这意味着我们的网络全局了解整个图像和图像中的所有对象。YOLO设计支持端到端训练和实时速度，同时保持较高的平均精度。

我们的系统将输入图像分成S×S网格。如果对象的中心落入网格单元格中，则该网格单元格负责检测该对象。

每个网格单元预测这些框的B边界框和置信分数。这些信息得分反映了模型是如何保证盒子包含一个物体，以及它对盒子预测的准确程度。正式地，我们定义为Pr对象* IOUtruthpred。如果该单元格中不存在对象，则置信分数应为零。否则，我们希望置信分数等于预测框和地面实况之间的联合交叉（IOU）。

每个边界框由5个预测组成：x，y，w，h和con fi dence。坐标表示相对于网格单元边界的框的中心。相对于整个图像预测宽度和高度。最后，信心预测代表预测框和任何地面实况框之间的IOU。

每个网格单元还预测C条件类概率，类对象）。这些概率以包含对象的网格单元为条件。我们只预测每个网格单元的一组类概率，而不管方框B的数量。

在测试时，我们将条件类概率与单个框的置信预测相乘，

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

这给了我们每个盒子的特定类别的信心分数。这些分数编码该类出现在框中的概率以及预测框出现在对象中的程度。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

图2：模型。我们的系统将检测模型作为回归问题。它将图像划分为网格，并为每个网格单元预测B边界框，对这些框的置信度和C类概率。这些预测编码为S×S×（B*5+C）张量。

为了评估PASCAL VOC上的YOLO，我们使用S=7，B=2。PASCAL VOC有20个标记类，因此C=20。我们的最终预测是7×7×30张量。

2.1. Network Design：

我们将此模型实现为卷积神经网络，并在PASCAL VOC检测数据集上进行评估[9]。网络的初始卷积层从图像中提取特征，而完全连接的层预测输出概率和坐标。

我们的网络架构受到用于图像分类的GoogLeNet模型的启发[34]。我们的网络有24个卷积层，后面是2个完全连接的层。除了GoogLeNet使用的初始模块，我们只使用1×1缩减层，然后使用3×3卷积层，类似于Lin等[22]。完整的网络如图3所示。

我们还训练了一个快速版的YOLO，旨在突破快速物体检测的界限。快速YOLO使用具有较少卷积层（9而不是24）的神经网络，并且在这些层中使用较少的过滤器。除了网络的大小，YOLO和Fast YOLO之间的所有训练和测试参数都是相同的。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

图3：架构。我们的检测网络有24个卷积层，后面是2个完全连接的层。交替的1×1卷积层减少了前面图层的特征空间。我们在ImageNet分类任务上以一半的分辨率（224×224输入图像）预先训练卷积层，然后将分辨率加倍以进行检测。

我们网络的最终输出是7×7×30张量预测。

2.2. Training：

我们在ImageNet 1000级竞赛数据集[30]上预先训练我们的卷积层。对于预训练，我们使用图3中的前20个卷积层，然后是平均池和完全连接层。我们训练这个网络大约一周，并在ImageNet 2012验证集上实现88％的单一作物前5精度，与Caffe模型动物园中的GoogLeNet模型相当[24]。我们使用Darknet框架进行所有训练和推理[26]。

然后我们转换模型以执行检测。任等人。表明将卷积和连接层添加到预训练网络可以提高性能[29]。按照他们的例子，我们添加四个卷积层和两个完全连接的层，随机初始化权重。检测通常需要细粒度的视觉信息，因此我们将网络的输入分辨率从224×224增加到448×448。

我们的最终层预测了类概率和边界框坐标。我们将边界框宽度和高度标准化为图像宽度和高度，使它们介于0和1之间。我们将边界框x和y坐标参数化为特定网格单元位置的偏移，因此它们也在0和1之间。

我们对最终层使用线性**函数，所有其他层使用以下泄漏的重新线性**：

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

我们优化模型输出中的求和平方误差。我们使用求和平方误差，因为它很容易优化，但它与我们最大化平均精度的目标并不完全一致。它将定位误差与分类误差相等地加权，这可能并不理想。此外，在每个图像中，许多网格单元不包含任何对象。这将这些单元格的“信心”分数推向零，通常会压制包含对象的单元格的渐变。这可能导致模型不稳定，导致培训在早期出现分歧。

为了解决这个问题，我们增加了边界框坐标预测的损失，并减少了不包含对象的框的信心预测损失。我们使用两个参数，λcoord和λnoobj来实现这一目的。我们设置λcoord=.5和λnoobj=.5。

求和误差也同样可以加大大盒子和小盒子中的误差。我们的误差度量应该反映出大盒子中的小偏差小于小盒子中的小偏差。为了部分解决这个问题，我们直接预测边界框宽度和高度的平方根，而不是宽度和高度。

YOLO预测每个网格单元有多个边界框。在训练时，我们只希望一个边界框预测器负责每个对象。我们根据哪个预测具有最高当前IOU和基础事实，将一个预测器指定为“负责”以预测对象。这导致边界框预测变量之间的特化。每个预测变量都能更好地预测某些大小，宽高比或对象类别，从而提高整体回忆率。

在训练期间，我们优化了以下多部分损失功能：

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

其中1obji表示对象是否出现在单元格i中，而1objij表示单元格i中的第j个边界框预测符对该预测“负责”。

注意，如果对象存在于该网格单元中（因此前面讨论的条件类概率），则损失函数仅惩罚分类错误。如果该预测器对地面实况框“负责”（即，该网格单元中具有任何预测器的最高IOU），它也仅惩罚边界框坐标误差。

我们在PASCAL VOC 2007和PASCAL VOC培训和验证数据集上训练了大约135个时期的网络

2012年。在2012年测试时，我们还包括用于培训的VOC 2007测试数据。在整个培训过程中，我们使用的批量为64，动量为0.9，衰减为0.0005。

我们的学习率计划如下：对于第一个时期，我们慢慢将学习率从10^-3提高到10^-2。如果我们从高学习速度开始，我们的模型通常会因梯度不稳定而发散。我们继续训练10^-2为75个时期，然后10^-3为30个时期，最后是10^-4为30个时期。

2.3. Inference：

就像在训练中一样，预测测试图像的检测只需要一次网络评估。在PASCAL VOC上，网络预测每个图像98个边界框和每个框的类概率。YOLO在测试时非常快，因为它不需要单一的网络评估，这与基于分类器的方法不同。

网格设计在边界框预测中强制实施空间多样性。通常很清楚一个对象落入哪个网格单元，并且网络仅为每个对象预测一个框。然而，多个细胞的边界附近的一些大物体或物体可以被多个细胞很好地定位。可以使用非最大抑制来确定这些多个检测。虽然对于R-CNN或DPM的性能并不重要，但非最大抑制在mAP中增加了23％。

2.4. Limitations of YOLO：

YOLO对边界框预测施加了强大的空间约束，因为每个网格单元只预测两个框，并且只能有一个类。此空间约束限制了我们的模型可以预测的附近对象的数量。我们的模型与群体中出现的小物体斗争，例如鸟群。

由于我们的模型学习从数据中预测边界框，因此它难以在新的或不寻常的宽高比或配置中推广到对象。我们的模型还使用相对粗略的特征来预测边界框，因为我们的体系结构具有来自输入图像的多个下采样层。

最后，当我们训练一个近似于检测性能的损失函数时，我们的损失函数在小边界框中与大边界框相比处理错误。大盒子中的小错误通常是良性的，但小盒子中的小错误对IOU的影响要大得多。我们的主要错误来源是错误的本地化。

3. Comparison to Other Detection Systems:

对象检测是计算机视觉中的核心问题。检测流水线通常首先从输入图像中提取一组稳健特征（Haar [25]，SIFT [23]，HOG [4]，卷积特征[6]）。然后，分类器[36,21,13,10]或定位器[1,32]用于识别特征空间中的对象。这些分类器或定位器可以在整个图像上以滑动窗口方式运行，也可以在图像中的某些区域子集上运行[35,15,39]。我们将YOLO检测系统与几个*检测框架进行了比较，突出了主要的相似点和不同点。

可变形零件模型。可变形零件模型（DPM）使用滑动窗口方法进行物体检测[10]。DPM使用不相交的管道来提取静态特征，对区域进行分类，预测高分区域的边界框等。我们的系统用一个卷积神经网络替换所有这些不同的部分。网络同时执行特征提取，边界框预测，非最大抑制和上下文推理。网络不是静态功能，而是在线训练功能并针对检测任务对其进行优化。我们的统一架构使得模型比DPM更快，更准确。

R-CNN。 R-CNN及其变体使用区域提议而不是滑动窗口来找到图像中的对象。选择性搜索[35]生成潜在的边界框，卷积网络提取特征，SVM对框进行评分，线性模型调整边界框，非最大抑制消除重复检测。这个复杂管道的每个阶段必须独立精确调整，结果系统非常慢，在测试时每个图像需要超过40秒[14]。

YOLO与R-CNN有一些相似之处。每个网格单元提出潜在的边界框，并使用卷积特征对这些框进行评分。但是，我们的系统对网格单元提议设置了空间限制，这有助于减轻同一对象的多次检测。我们的系统还提出了更少的边界框，每个图像只有98个，而选择性搜索只有2000个。最后，我们的系统将这些单独的组件组合成一个联合优化的模型。

其他快速检测器快速而快速的R-CNN专注于加速R-CNN框架，通过共享计算和使用神经网络来提出区域而不是选择性搜索[14] [28]。虽然它们提供了比R-CNN更快的速度和准确度，但两者仍然没有达到实时性能。

许多研究工作都集中在加速DPM管道[31] [38] [5]。它们加速HOG计算，使用级联，并将计算推送到GPU。但是，只有30Hz的DPM [31]实际上是实时运行的。

YOLO没有尝试优化大型检测管道的各个组件，而是完全抛出管道并且设计快速。

单个类（如面部或人）的探测器可以进行高度优化，因为它们必须处理更少的变化[37]。YOLO是一种通用检测器，可以学习同时检测各种物体。

Deep MultiBox。与R-CNN不同，Szegedy等人。训练卷积神经网络来预测感兴趣的区域

[8]而不是使用选择性搜索。 MultiBox还可以通过使用单个类预测替换置信预测来执行单个对象检测。但是，MultiBox无法执行常规对象检测，并且仍然只是更大的检测管道中的一部分，需要进一步的图像补丁分类。YOLO和MultiBox都使用卷积网络来预测图像中的边界框，但YOLO是一个完整的检测系统。

OverFeat。 Sermanet等。训练卷积神经网络以执行定位并调整定位器以执行检测[32]。OverFeat可以有效地执行滑动窗口检测，但它仍然是一个不相交的系统。OverFeat优化了本地化，而不是检测性能。与DPM一样，本地化程序在进行预测时仅查看本地信息。OverFeat无法推理全局背景，因此需要进行大量的后处理才能产生连贯的检测。

MultiGrasp。我们的设计在设计上类似于Redmon等[27]的抓握检测。我们对边界框预测的网格方法基于MultiGrasp系统进行回归到掌握。然而，抓取检测是比对象检测简单得多的任务。MultiGrasp只需要为包含一个对象的图像预测单个可抓取区域。它不必估计对象的大小，位置或边界或预测它的类，只能找到适合抓取的区域。YOLO预测图像中多个类的多个对象的边界框和类概率。

4. Experiments:

首先，我们将POLCAL VOC 2007上的YOLO与其他实时检测系统进行比较。为了理解YOLO和R-CNN变体之间的差异，我们探讨了YOLO和Fast R-CNN对VOC 2007的误差，这是R-CNN表现最高的版本之一[14]。基于不同的错误配置，我们表明YOLO可用于重新调整快速R-CNN检测并减少背景误报的错误，从而显着提升性能。我们还介绍了VOC 2012的结果，并将mAP与当前最先进的方法进行了比较。最后，我们展示了YOLO比两个艺术品数据集上的其他检测器更好地推广到新域。

4.1. Comparison to Other Real-Time Systems:

对象检测的许多研究工作都集中在快速制作标准检测流水线上。 [5] [38] [31] [14] [17]

[28]然而，只有Sadeghi等人。实际上产生了一个实时运行的检测系统（每秒30帧或更好）[31]。我们将YOLO与他们在30Hz或100Hz下运行的DPM的GPU实现进行比较。虽然其他工作没有达到实时里程碑，但我们还比较了它们的相对mAP和速度，以检查物体检测系统中可用的准确性 - 性能权衡。

Fast YOLO是PASCAL上最快的物体检测方法;据我们所知，它是现存最快的物体探测器。通过52.7％的mAP，它比以前的实时检测工作准确度高出两倍多。YOLO将mAP推至63.4％，同时仍保持实时性能。

我们还使用VGG-16训练YOLO。这种模型更准确，但也比YOLO慢得多。与其他依赖VGG-16的检测系统进行比较非常有用，但由于它比实时慢，本文的其余部分主要关注我们的快速模型。

最快的DPM有效地加速了DPM而没有牺牲太多的mAP，但它仍然错过了实时性能2倍[38]。与神经网络方法相比，它还受到DPM检测精度相对较低的限制。

R-CNN减去R用静态边界框提议取代选择性搜索[20]。虽然它比R-CNN快得多，但它仍然没有实时性，并且由于没有好的建议而受到了极大的准确性影响。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

表1：PASCAL VOC 2007上的实时系统。比较快速检测器的性能和速度。Fast YOLO是PASCAL VOC检测中记录最快的检测器，其精度仍然是其他任何实时检测器的两倍。YOLO比快速版本更精确10 mAP，同时仍然远远高于实时速度。

快速R-CNN加速了R-CNN的分类阶段，但它仍然依赖于选择性搜索，每个图像大约需要2秒才能生成边界框提议。因此它具有高mAP但是在0.5fps时仍然远非实时。

最近的快速R-CNN用神经网络取代选择性搜索以提出边界框，类似于Szegedy等人。 [8]在我们的测试中，他们最精确的模型达到7 fps，而较小，不太精确的模型以18 fps运行。更快的R-CNN的VGG-16版本高出10 mAP，但也比YOLO慢6倍。ZeilerFergus更快的R-CNN仅比YOLO慢2.5倍，但也不太准确。

4.2. VOC 2007 Error Analysis:

为了进一步研究YOLO和最先进的探测器之间的差异，我们将详细分析VOC 2007的结果。我们将YOLO与Fast RCNN进行比较，因为Fast R-CNN是PASCAL上性能最高的探测器之一，它的检测是公开的。

我们使用Hoiem等人的方法和工具。 [19]对于测试时的每个类别，我们查看该类别的前N个预测。每个预测都是正确的，或者根据错误类型进行分类：

* Correct: correct class and IOU > .5

* Localization: correct class, .1 < IOU < .5

* Similar: class is similar, IOU > .1

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

图4：错误分析：快速R-CNN与YOLO这些图表显示了各种类别的前N个检测中的本地化和背景错误的百分比（N =该类别中的＃个对象）。

* Other: class is wrong, IOU > .1

* Background: IOU < .1 for any object

图4显示了所有20个类中平均每种错误类型的细分。

YOLO努力正确地定位对象。与所有其他来源相结合，本地化错误占YOLO错误的更多。快速R-CNN使本地化错误更少，但背景错误更多。其中13.6％的*检测结果是误报，不包含任何对象。与YOLO相比，快速R-CNN预测背景检测的可能性几乎高出3倍。

4.3. Combining Fast R-CNN and YOLO:

与快速R-CNN相比，YOLO的背景错误要少得多。通过使用YOLO消除Fast R-CNN的背景检测，我们获得了显着的性能提升。对于R-CNN预测的每个边界框，我们检查YOLO是否预测了类似的框。如果确实如此，我们会根据YOLO预测的概率和两个框之间的重叠来推动该预测。

最佳Fast R-CNN型号在VOC 2007测试装置上实现了71.8％的mAP。当与YOLO结合使用时，其mAP增加3.2％至75.0％。我们还尝试将*Fast R-CNN模型与其他几个版本的Fast R-CNN相结合。这些合奏使mAP的小幅增加在.3和.6％之间，详见表2。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

表2：VOC 2007的模型组合实验。我们研究了将各种模型与最佳版本的Fast R-CNN相结合的效果。其他版本的Fast R-CNN仅提供小的优惠，而YOLO则提供了显着的性能提升。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

表3：PASCAL VOC 2012排行榜。截至2015年11月6日，YOLO与完整的comp4（允许外部数据）公共排行榜相比较。针对各种检测方法显示了平均精度和每级平均精度。 YOLO是唯一的实时探测器。快速R-CNN + YOLO是第四高得分方法，比快速R-CNN提升2.3％。

YOLO的推动不仅仅是模型集成的副产品，因为组合不同版本的Fast R-CNN几乎没有什么好处。相反，正是因为YOLO在测试时犯了不同类型的错误，才能提升快速R-CNN的性能。

不幸的是，这种组合并不受YOLO速度的影响，因为我们单独运行每个模型然后合并结果。但是，由于YOLO如此之快，与Fast R-CNN相比，它不会增加任何显着的计算时间。

4.4. VOC 2012 Results:

在VOC 2012测试集中，YOLO的分数为57.9％。这低于现有技术水平，更接近使用VGG-16的原始R-CNN，参见表3。与最接近的竞争对手相比，我们的系统与小型物体相抗衡。在瓶子，绵羊和tv/monitor等类别中，YOLO比R-CNN或功能编辑低8-10％。然而，在其他类别如猫和火车上，YOLO实现了更高的性能。

我们的快速R-CNN + YOLO组合模型是性能最高的检测方法之一。快速R-CNN从与YOLO的组合中获得了2.3％的提升，使其在公共排行榜上增加了5个点。

4.5. Generalizability: Person Detection in Artwork:

用于对象检测的学术数据集从同一分布中提取训练和测试数据。在实际应用中，很难预测所有可能的用例，测试数据可能与系统之前的情况有所不同[3]。我们将YOLO与Picasso数据集[12]和人物艺术数据集[3]上的其他检测系统进行比较，这两个数据集用于测试艺术品上的人物检测。

图5显示了YOLO与其他检测方法之间的比较性能。作为参考，我们在人员上提供VOC 2007检测AP，其中所有型号仅针对VOC 2007数据进行培训。在Picasso模型上接受了VOC 2012的培训，而在People-Art上，他们接受了VOC 2010的培训。

R-CNN在VOC 2007上具有很高的AP。然而，当应用于艺术品时，R-CNN显着下降。R-CNN使用选择性搜索来调整自然图像的边界框提议。R-CNN中的分类步骤只能看到小区域，需要很好的建议。

当应用于艺术品时，DPM可以很好地维护其AP。之前的工作认为DPM表现良好，因为它具有强大的对象形状和布局的空间模型。虽然DPM不像R-CNN那样降低，但它从较低的AP开始。

YOLO在VOC 2007上具有良好的性能，并且当应用于艺术品时，其AP比其他方法降低更少。与DPM一样，YOLO模拟对象的大小和形状，以及对象和对象通常出现的位置之间的关系。图像和自然图像在像素级别上非常不同，但它们在对象的大小和形状方面相似，因此YOLO仍然可以预测良好的边界框和检测。

5. Real-Time Detection In The Wild:

YOLO是一款快速，精确的物体探测器，非常适合计算机视觉应用。我们将YOLO连接到网络摄像头并验证它是否保持实时性能，（b）VOC 2007，Picasso和People-Art数据集的定量结果。毕加索数据集评估AP和最佳F1得分。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

图5：Picasso和People-Art数据集的泛化结果。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

图6：定性结果。 YOLO运行样本艺术作品和来自互联网的自然图像。虽然它确实认为一个人是飞机，但它大多是准确的。

包括从相机获取图像并显示检测的时间。

由此产生的系统具有互动性和吸引力虽然YOLO单独处理图像，但当连接到网络摄像头时，它的功能类似于跟踪系统，在物体移动时检测物体并改变外观。可在我们的项目网站上找到系统演示和源代码：http://pjreddie.com/yolo/.

6. Conclusion:

我们介绍YOLO，一种用于物体检测的统一模型。我们的模型构造简单，可以直接在完整图像上进行训练。与基于分类器的方法不同，YOLO接受了与检测性能直接对应的损失函数的训练，并且整个模型被联合训练。

Fast YOLO是文献中最快的通用物体探测器，YOLO在实时物体探测中推动了最先进的技术。YOLO还可以很好地推广到新域，使其成为依赖快速，强大的对象检测的应用程序的理想选择。

致谢：ONR N00014-13-1-0720，NSF IIS-1338054和艾伦杰出研究员奖部分支持这项工作。

【论文翻译】YOLOv1：You Only Look Once_Unified, Real-Time Object Detection

《You Only Look Once:Unified, Real-Time Object Detection》

发表会议： CVPR2015

作者：

Abstract：

1. Introduction:

2. Uniﬁed Detection：

2.1. Network Design：

2.2. Training：

2.3. Inference：

2.4. Limitations of YOLO：

3. Comparison to Other Detection Systems:

4. Experiments:

4.1. Comparison to Other Real-Time Systems:

4.2. VOC 2007 Error Analysis:

4.3. Combining Fast R-CNN and YOLO:

4.4. VOC 2012 Results:

4.5. Generalizability: Person Detection in Artwork:

5. Real-Time Detection In The Wild:

6. Conclusion:

相关推荐