Object Detection in 20 Years: A Survey

Zhengxia Zou, Zhenwei Shi, Member, IEEE, Yuhong Guo, and Jieping Ye, Senior Member, IEEE

摘要：目标检测作为计算机视觉中最基本、最具挑战性的问题之一，近年来受到了广泛的关注。它在过去二十年的发展可以说是计算机视觉历史的缩影。如果我们把今天的物体检测看作是深度学习力量下的一种技术美学，那么让时光倒流20年，我们将见证冷兵器时代的智慧。本文从对象检测技术发展的角度，对近四分之一世纪 ( 20世纪90年代至2019年 ) 的400余篇论文进行了广泛的回顾。本文涵盖了许多主题，包括历史上的里程碑检测器、检测数据集、度量、检测系统的基本构件、加速技术以及最新的检测方法。本文还综述了行人检测、人脸检测、文本检测等重要的检测应用，并对其面临的挑战以及近年来的技术进步进行了深入分析。

索引词-目标检测，计算机视觉，深度学习，卷积神经网络，技术进化。

1 INTRODUCTION

目标检测是数字图像中某一类 ( 如人、动物或汽车 ) 的重要计算机视觉任务。目标检测的目标是开发计算模型和技术，提供计算机视觉应用程序所需的最基本的信息之一：什么对象在哪里?

目标检测作为计算机视觉的基本问题之一，是许多其他计算机视觉任务的基础，如实例分割[1-4]、图像字幕[5-7]、对象跟踪[8]等。从应用程序的角度来看，目标检测可以被分为两个研究主题 “ general object detection ” 和 “ detection applications ” ，前者旨在探索在统一的框架下检测不同类型物体的方法，以模拟人类的视觉和认知；后者是指特定应用场景下的检测，如行人检测、人脸检测、文本检测等。近年来，随着深度学习技术[9]的快速发展，为目标检测注入了新的血液，取得了显著的突破，将其推向了一个前所未有的研究热点。目前，目标检测已广泛应用于自主驾驶、机器人视觉、视频监控等领域。图1显示了过去二十年中与 “ 目标检测 ” 相关的出版物数量的增长。

论文笔记-Object Detection in 20 Years: A Survey

与其他相关综述的区别：

近年来发表了许多关于general object detection的综述[24-28]。本文与上述综述的主要区别总结如下：

基于技术演进的全面回顾：本文广泛回顾了对象检测发展史上的400多篇论文，时间跨度超过25年(上世纪90年代至2019年)。以前的大多数综述仅仅关注一个较短的历史时期或一些特定的检测任务，而没有考虑它们整个生命周期中的技术演进。站在历史的高速公路上，不仅有助于读者建立一个完整的知识体系，而且有助于找到这个快速发展领域的未来方向。
深入探索关键技术和最新技术状态：经过多年的发展，目前的先进的对象检测系统已经与 “ 多尺度检测 ”、“ 硬负挖掘 ” 、“ 边界框回归 ” 等大量技术相结合，然而，以前的综述缺乏基本的分析来帮助读者理解这些复杂技术的本质，例如，“ 它们从哪里来，它们是如何进化的? ”、“ 每种方法的优缺点是什么? ”本文针对上述问题对读者进行了深入的分析。
全面分析加速检测技术：加速目标检测一直是一项关键而又具有挑战性的任务。本文从多个层面对近20年来目标检测技术的发展进行了全面的回顾，包括 “ 检测管道 ” ( 如级联检测、特征图共享计算 )、“ 检测主干 ”( 如网络压缩、轻量级网络设计 )、“ 数值计算 ”( 如积分图像、矢量量化 )。以前的综述很少涉及这个主题。

目标检测的难点和挑战：

尽管人们总是问 “ 在目标检测中有哪些困难和挑战? ” ，事实上，这个问题并不容易回答，甚至可能被过度概括。由于不同的检测任务具有完全不同的目标和约束，它们的困难程度可能会有所不同。除了其他计算机视觉任务中的一些常见挑战，如不同视点下的物体、光照和类内变化，目标检测的挑战包括但不限于以下几个方面：目标旋转和尺度变化 ( 如小目标 ) ，精确的目标定位，密集和遮挡的目标检测，加速检测等。在第4和第5节中，我们将对这些主题进行更详细的分析。

本文的其余部分组织如下。第2节回顾了近20年来物体检测的发展历史。第3节将介绍一些加速目标检测的技术。第4节总结了近三年来一些最先进的检测方法。第5节将回顾一些重要的检测应用。第6节对本文进行了总结，并对进一步的研究方向进行了分析。

2 OBJECT DETECTION IN 20 YEARS

在本节中，我们将从多个方面回顾对象检测的历史，包括里程碑检测器、目标检测数据集、指标和关键技术的发展。

2.1 A Road Map of Object Detection

在过去的二十年中，人们普遍认为，目标检测的发展大致经历了两个历史时期：“ 传统的目标检测时期 ” ( 2014年以前 ) 和 “ 基于深度学习的检测时期 ” ( 2014年以后 )，如图2所示。

论文笔记-Object Detection in 20 Years: A Survey

2.1.1 Milestones: Traditional Detectors（里程碑：传统检测器）

如果我们把今天的物体检测看作是深度学习力量下的一种技术美学，那么回到20年前，我们将见证“冷兵器时代的智慧”。早期的目标检测算法大多是基于手工特征构建的。由于当时缺乏有效的图像表示，人们别无选择，只能设计复杂的特征表示，以及各种加速技术来用尽有限的计算资源。

（1）Viola Jones Detectors

18年前，P. Viola和M. Jones在没有任何约束条件(如肤色分割)的情况下首次实现了人脸的实时检测[10,11]。在700MHz Pentium III CPU上，在同等的检测精度下，检测器的速度是其他算法的数十倍甚至数百倍。这种检测算法，后来被称为“维奥拉-琼斯”
(VJ)检测器”，在此以作者的名字命名，以纪念他们的重大贡献。

VJ检测器采用最直接的检测方法，即，滑动窗口：查看图像中所有可能的位置和比例，看看是否有窗口包含人脸。虽然这似乎是一个非常简单的过程，但它背后的计算远远超出了计算机当时的能力。VJ检测器结合了 “ 积分图像 ”、“ 特征选择 ” 和 “ 检测级联 ” 三种重要技术，大大提高了检测速度。

积分图像：积分图像是一种计算方法，以加快盒滤波或卷积过程。与当时的其他目标检测算法一样[29-31]，在VJ检测器中使用Haar小波作为图像的特征表示。积分图像使得VJ检测器中每个窗口的计算复杂度与其窗口大小无关。
特征选择：作者没有使用一组手动选择的Haar基过滤器，而是使用Adaboost算法[32]从一组巨大的随机特征池 ( 大约180k维 ) 中选择一组对人脸检测最有帮助的小特征。
检测级联：在VJ检测器中引入了一个多级检测范例 ( 又称“检测级联”，detection cascades )，通过减少对背景窗口的计算，而增加对人脸目标的计算，从而减少了计算开销。

（2）HOG Detector

方向梯度直方图(HOG)特征描述符最初是由N. Dalal和B.Triggs在2005年提出的。HOG可以被认为是对当时的尺度不变特征变换（scale-invariant feature transform）[33,34]和形状上下文（shape contexts）[35]的重要改进。为了平衡特征不变性 ( 包括平移、尺度、光照等 ) 和非线性 ( 区分不同对象类别 )，将HOG描述符设计为在密集的均匀间隔单元网格上计算，并使用重叠局部对比度归一化 ( 在“块”上 ) 来提高精度。虽然HOG可以用来检测各种对象类，但它的主要动机是行人检测问题。若要检测不同大小的对象，则HOG检测器在保持检测窗口大小不变的情况下，多次对输入图像进行重新标度。多年来，HOG检测器一直是许多目标检测器[13,14,36]和各种计算机视觉应用的重要基础。

（3）Deformable Part-based Model (基于可变形部件的模型，DPM)

DPM作为voco -07、-08、-09检测挑战的优胜者，是传统目标检测方法的巅峰。DPM最初是由P. Felzenszwalb提出的[13]，于2008年作为HOG检测器的扩展，之后R. Girshick进行了各种改进[14,15,37,38]。

DPM遵循“分而治之”的检测思想，训练可以简单地看作是学习一种正确的分解对象的方法，推理可以看作是对不同对象部件的检测的集合。例如，检测“汽车”的问题可以看作是检测它的窗口、车身和车轮。工作的这一部分，也就是“star model”由P.Felzenszwalb[13]等人完成。后来，R. Girshick进一步将 star model 扩展到 “ 混合模型 ”[14,15,37,38]，以处理更显著变化下的现实世界中的物体。

一个典型的DPM检测器由一个根过滤器（root-filter）和一些零件滤波器（part-filters）组成。该方法不需要手动指定零件滤波器的配置 ( 如尺寸和位置 )，而是在DPM中开发了一种弱监督学习方法，所有零件滤波器的配置都可以作为潜在变量自动学习。R. Girshick将这个过程进一步表述为一个多实例学习的特殊案例[39]，“硬负挖掘”、“边界框回归”、“上下文启动”等重要技术也被用于提高检测精度 ( 将在第2.3节中介绍 )。为了加快检测速度，Girshick开发了一种技术，将检测模型 “ 编译 ” 成一个更快的模型，实现了级联结构，在不牺牲任何精度的情况下实现了超过10倍的加速度[14,38]。

虽然今天的物体探测器在检测精度方面已经远远超过了DPM，但仍然受到DPM的许多有价值的见解的影响，如混合模型、硬负挖掘、边界盒回归等。2010年，P. Felzenszwalb和R. Girshick被授予PASCAL VOC的 “ lifetime achievement ”。

2.1.2 Milestones: CNN based Two-stage Detectors

随着手工特征的性能趋于饱和，目标检测在2010年之后达到了一个稳定的水平。R.Girshick说：“ ... progress has been slow during 2010-2012, with small gains obtained by building ensemble systems and employing minor variants of successful methods ”[38]。2012年，卷积神经网络[40]在世界范围内重生。由于深卷积网络能够学习图像的鲁棒性和高层次特征表示，一个自然的问题是我们能否将其应用到目标检测中?R. Girshick等人在2014年率先打破僵局，提出了具有CNN特征的区域(RCNN)用于目标检测[16,41]。从那时起，目标检测开始以前所未有的速度发展。

在深度学习时代，目标检测可以分为两类：“ two-stage detection ” 和 “ one-stage detection ”，前者将检测框定为一个 “ 从粗到细 ” 的过程，而后者将其定义为 “ 一步完成 ”。

（1）RCNN

RCNN背后的想法很简单：它首先通过选择性搜索[42]提取一组对象建议(对象候选框)。然后，每个提案都被重新调整成一个固定大小的图像，并输入到一个在 ImageNet 上训练得到的CNN模型 ( 例如，AlexNet[40] ) 来提取特征。最后，利用线性SVM分类器对每个区域内的目标进行预测，识别目标类别。RCNN在VOC07上产生了显著的性能提升，平均平均精度 ( mean Average Precision，mAP ) 从33.7% ( DPM-v5[43] ) 大幅提高到58.5%。

虽然RCNN已经取得了很大的进步，但它的缺点是显而易见的：在大量重叠的提案上进行冗余的特征计算 ( 一张图片超过2000个框 )，导致检测速度极慢 ( GPU下每张图片14秒 )。同年晚些时候，SPPNet[17]被提出并克服了这个问题。

（2）SPPNet

2014年，K. He等人提出了空间金字塔池化网络 ( Spatial Pyramid Pooling Networks，SPPNet ) [17]。以前的CNN模型需要固定大小的输入，例如，AlexNet[40]需要224x224图像。SPPNet的主要贡献是引入了空间金字塔池化(SPP)层，它使CNN能够生成固定长度的表示，而不需要重新缩放图像/感兴趣区域的大小。利用SPPNet进行目标检测时，只对整个图像进行一次特征映射计算，然后生成任意区域的定长表示，训练检测器，避免了卷积特征的重复计算。SPPNet的速度是R-CNN的20多倍，并且没有牺牲任何检测精度(VOC07 mAP=59.2%)。

SPPNet虽然有效地提高了检测速度，但仍然存在一些不足：第一，训练仍然是多阶段的，第二，SPPNet只对其全连接层进行微调，而忽略了之前的所有层。次年晚些时候，Fast RCNN[18]被提出并解决了这些问题。

（3）Fast RCNN

2015年，R. Girshick提出了 Fast RCNN 检测器[18]，这是对 R-CNN 和 SPPNet 的进一步改进[16、17]。Fast RCNN 使我们能够在相同的网络配置下同时训练检测器和边界框回归器。在VOC07数据集上，Fast RCNN 将mAP从58.5% ( RCNN ) 提高到70.0%，检测速度是 R-CNN 的200多倍。

虽然 Fast-RCNN 成功地融合了 R-CNN 和 SPPNet 的优点，但其检测速度仍然受到提案/建议检测的限制 ( 详见2.3.2节 )。然后，一个问题自然而然地出现了：“ 我们能用CNN模型生成对象建议吗? ” 稍后，Faster R-CNN [19]解决了这个问题。

（4）Faster RCNN

2015年，S. Ren等人提出了 Faster RCNN 检测器[19,44]，在 Fast RCNN 之后不久。Faster RCNN 是第一个端到端的，也是第一个接近实时的深度学习检测器 ( COCO [email protected]=42.7%， COCO [email protected][.5，.95]=21.9%， VOC07 mAP=73.2%， VOC12 mAP=70.4%， 17fps with ZFNet[45] )。Faster RCNN 的主要贡献是引入了区域建议网络 ( RPN )，使几乎 cost-free 的区域建议成为可能。从 RCNN 到 Faster RCNN ，一个目标检测系统中的大部分独立块，如提案检测、特征提取、边界框回归等，都已经逐渐集成到一个统一的端到端学习框架中。

虽然 Faster RCNN 突破了 Fast RCNN 的速度瓶颈，但是在后续的检测阶段仍然存在计算冗余。后来提出了多种改进方案，包括 RFCN [46]和 Light head RCNN [47]。(详见第3节。)

（5）Feature Pyramid Networks（FPN）

2017年，T.-Y.Lin等人基于 Faster RCNN 提出了特征金字塔网络 ( FPN ) [22]。在FPN之前，大多数基于深度学习的检测器只在网络的顶层进行检测。虽然CNN较深层的特征有利于分类识别，但不利于对象的定位。为此，开发了具有横向连接的自顶向下体系结构，用于在所有级别构建高级语义。由于CNN通过它的正向传播，自然形成了一个特征金字塔，FPN在检测各种尺度的目标方面显示出了巨大的进步。在基础的 Faster RCNN 系统中使用 FPN ，在 MSCOCO 数据集上实现了最先进的单模型检测结果，没有任何附加条件 ( COCO [email protected]=59.1%， COCO [email protected][.5，.95]= 36.2% )。FPN现在已经成为许多最新探测器的基本组成部分。

2.1.3 Milestones: CNN based One-stage Detectors

（1）You Only Look Once (YOLO)

YOLO由R. Joseph等人于2015年提出。它是深度学习时代[20]的第一个单级检测器。YOLO非常快：YOLO的一个快速版本运行速度为155fps, VOC07 mAP=52.7%，而它的增强版本运行速度为45fps, VOC07 mAP=63.4%， VOC12 mAP=57.9%。YOLO是 “ You Only Look Once ” 的缩写。从它的名字可以看出，作者完全抛弃了之前的 “ 提案检测+验证 ” 的检测范式。相反，它遵循一个完全不同的哲学：将单个神经网络应用于整个图像。该网络将图像分割成多个区域，同时预测每个区域的边界框和概率。后来R. Joseph在 YOLO 的基础上进行了一系列改进，提出了其 v2 和 v3 版本[48,49]，在保持很高检测速度的同时进一步提高了检测精度。

尽管与两级探测器相比，它的探测速度有了很大的提高，但是YOLO的定位精度有所下降，特别是对于一些小目标。YOLO的后续版本[48,49]和后者提出的 SSD [21]更关注这个问题。

（2）Single Shot MultiBox Detector (SSD)

SSD[21]由W. Liu等人于2015年提出。这是深度学习时代的第二款单级探测器。SSD的主要贡献是引入了多参考和多分辨率检测技术 ( 将在2.3.2节中介绍 )，这大大提高了单级检测器的检测精度，特别是对于一些小目标。SSD在检测速度和准确度上都有优势 ( VOC07 mAP=76.8%， VOC12 mAP=74.9%， COCO [email protected]=46.5%， [email protected][.5，.95]=26.8%，快速版本运行速度为59fps ) 。SSD与以往任何检测器的主要区别在于，前者在网络的不同层检测不同尺度的对象，而后者仅在其顶层运行检测。

（3）RetinaNet

单级检测器速度快、结构简单，但多年来一直落后于两级检测器的精度。T.-Y.Lin等人发现了背后的原因，并在2017年[23]提出了RetinaNet。他们声称，在密集探测器训练过程中所遇到的极端的前景-背景阶层不平衡（the extreme foreground-background class imbalance）是主要原因。为此，在 RetinaNet 中引入了一个新的损失函数 “ 焦损失（focal loss）”，通过对标准交叉熵损失的重构，使检测器在训练过程中更加关注难分类的样本。焦损耗使得单级检测器在保持很高的检测速度的同时，可以达到与两级检测器相当的精度。( COCO [email protected]=59.1%, [email protected][.5, .95]=39.1% )。

2.2 Object Detection Datasets and Metrics

建立具有更少的偏置的更大的数据集，是开发先进的计算机视觉算法的关键。在目标检测方面，在过去10年中，已经发布了许多著名的数据集和基准测试，包括 PASCAL VOC 挑战[50,51]的数据集（例如，VOC2007, VOC2012）、ImageNet 大尺度视觉识别挑战[52]（例如，ILSVRC2014）、MS-COCO检测挑战[53]等。表1给出了这些数据集的统计数据。图4显示了这些数据集的一些图像示例。图3显示了从2008年到2018年对VOC07、VOC12和MS-COCO数据集检测精度的提高。

论文笔记-Object Detection in 20 Years: A Survey

（1）Pascal VOC

PASCAL可视化对象类 ( Visual Object Classes，VOC ) 挑战 ( 2005 - 2012 ) [50,51]是早期计算机视觉界最重要的比赛之一。PASCAL VOC中包含多种任务，包括图像分类、目标检测、语义分割和动作检测。两种版本的Pascal-VOC主要用于对象检测：VOC07和VOC12，前者由 5k tr. images + 12k annotated objects 组成，后者由 11k tr. images + 27k annotated objects 组成。这两个数据集中注释了生活中常见的20类对象（ Person: person; Animal: bird, cat, cow, dog, horse, sheep; Vehicle: aeroplane, bicycle, boat, bus, car, motor-bike, train; Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor ）。近年来，随着ILSVRC、MS-COCO 等大型数据集的发布，VOC逐渐淡出人们的视野，成为大多数新型检测器的试验台。

（2）ILSVRC

ImageNet大规模视觉识别挑战 ( Large Scale Visual Recognition Challenge，ILSVRC ) [52]推动了通用目标检测技术的发展。ILSVRC 从2010年到2017年每年举办一次。它包含一个使用 ImageNet 图像[57]的检测挑战。ILSVRC 检测数据集包含200类视觉对象。它的图像/对象实例的数量比VOC大两个数量级。例如，ILSVRC-14 包含 517k 图像和 534k 带注释的对象。

（3）MS-COCO

MS-COCO [53]是目前最具挑战性的目标检测数据集。自2015年以来一直保持一年一度的基于 MS-COCO 数据集的比赛。它的对象类别比 ILSVRC 少，但是对象实例多。例如，MS-COCO-17 包含来自 80 个类别的 164k 图像和 897k 带注释的对象。与 VOC 和 ILSVRC 相比，MS-COCO 最大的进步是除了边框标注外，每个对象都进一步使用实例分割进行标记，以帮助精确定位。此外，MS-COCO 包含更多的小对象 ( 其面积小于图像的1% ) 和比 VOC 和 ILSVRC 更密集的定位对象。所有这些特性使得 MSCOCO 中的对象分布更接近真实世界。就像当时的 ImageNet 一样，MS-COCO 已经成为对象检测社区的实际标准。

（4）Open Images

继 MS-COCO 之后，开放图像检测 ( OID ) 技术在2018年迎来了前所未有的挑战。在开放图像中有两个任务：1) 标准目标检测，2) 视觉关系检测，检测特定关系中成对的目标。对于目标检测任务，数据集由 1,910k 张图像和 15,440k 个带注释的边界框组成，这些边界框位于 600 个对象类别上。

（5）Datasets of Other Detection Tasks

在过去的20年里，除了一般的目标检测外，在行人检测、人脸检测、文本检测、交通标志/灯光检测、遥感目标检测等特定领域的检测应用也十分繁荣。表2-6列出了这些检测任务的一些流行数据集。有关这些任务的检测方法的详细介绍可在第5节中找到。

论文笔记-Object Detection in 20 Years: A Survey

2.2.1 Metrics

我们如何评估目标探测器的有效性? 这个问题甚至可能在不同的时间有不同的答案。

在早期的检测社区中，对于检测性能的评价标准并没有得到广泛的认可。例如，在行人检测[12]的早期研究中，“每个窗口的漏报率与误报率 ( FPPW ) ” 通常用作度量。然而，逐窗测量 ( FPPW ) 可能存在缺陷，在某些情况下无法预测[59]的完整图像特性。2009年，加州理工学院 ( Caltech ) 建立了行人检测基准[59,60]，从那时起，评估指标从每窗口 ( per-window，FPPW ) 改为每图像的伪阳性 ( false positive per-image，FPPI )。

近年来，对目标检测最常用的评估方法是 “ 平均精度 ( AP ) ”，该方法最早是在 VOC2007 中引入的。AP 定义为不同召回情况下的平均检测精度，通常以类别特定的方式进行评估。为了比较所有对象类别的性能，通常使用所有对象类别的平均 AP ( mAP ) 作为性能的最终度量。为了测量目标定位精度，使用 Union 上的交集 ( Intersection over Union，IoU ) 来检查预测框和地面真实框之间的 IoU 是否大于预定义的阈值，比如 0.5。如果是，则将该对象标识为 “ 成功检测到 ”，否则将标识为 “ 未检测到 ”。因此，基于 mAP 的 0.5 -IoU 多年来已成为用于目标检测问题的实际度量。

2014年以后，由于 MS-COCO 数据集的普及，研究人员开始更加关注边界框位置的准确性。MS-COCO AP没有使用固定的 IoU 阈值，而是在多个 IoU 阈值上取平均值，阈值介于 0.5 ( 粗定位 ) 和 0.95 ( 完美定位 ) 之间。这种度量的变化鼓励了更精确的对象定位，并且对于一些实际应用可能非常重要 ( 例如，假设有一个机器人手臂试图抓住扳手 )。

近年来，对开放图像数据集的评价有了进一步的发展，如考虑了组框（group-of boxes）和非穷举的图像级类别层次结构。一些研究者也提出了一些替代指标，如 “ 定位回忆精度 ” [94]。尽管最近发生了一些变化，基于 VOC/COCO 的 mAP 仍然是最常用的目标检测评估指标。

2.3 Technical Evolution in Object Detection

在本节中，我们将介绍检测系统的一些重要构件及其在过去20年中的技术发展。

2.3.1 Early Time’s Dark Knowledge

早期的目标检测 ( 2000年以前 ) 没有遵循滑动窗口检测等统一的检测理念。当时的检测器通常基于如下低层和中层的视觉设计。

（1）Components, shapes and edges（组件、形状和边缘）

“ 分量识别（Recognition-by-components）” 作为一种重要的认知理论[98]，长期以来一直是图像识别和目标检测的核心思想[13,99,100]。一些早期的研究人员将目标检测定义为测量对象组件、形状和轮廓之间的相似性，包括距离变换[101]、形状上下文
[35]、小边特征[102]等。尽管最初的结果很有希望，但在更复杂的检测问题上，事情进展得并不顺利。因此，基于机器学习的检测方法开始蓬勃发展。

基于机器学习的检测经历了包括外观统计模型在内的多个阶段 ( 1998年以前 ) 、小波特征表示 ( 1998-2005 ) 和基于梯度的表示 ( 2005-2012 )。

建立对象的统计模型，比如特征面（Eigenfaces）[95,106]如图5 (a)所示，是目标检测历史上第一波基于学习的方法。1991年，M.Turk等人利用特征脸分解技术在实验室环境中实现了实时人脸检测[95]。与当时基于规则或模板的方法相比[107,108]，统计模型通过从数据中学习特定于任务的知识，更好地提供了对象外观的整体描述。

自2000年以来，小波特征变换开始主导视觉识别和目标检测。这组方法的本质是通过将图像从像素点转换为一组小波系数来学习。其中，Haar小波由于其计算效率高，被广泛应用于一般目标检测[29]、人脸检测[10,11,109]，行人检测[30,31]等目标检测任务中。图5 (d)为VJ检测器学习到的一组用于人脸的Haar小波基[10, 11]。

论文笔记-Object Detection in 20 Years: A Survey

（2）Early time’s CNN for object detection

使用CNN检测物体的历史可以追溯到20世纪90年代[96]，当时Y. LeCun等人做出了巨大的贡献。由于计算资源的限制，当时的CNN模型比现在的模型要小得多，也要浅得多。尽管如此，在早期基于CNN的检测模型中，计算效率仍然被认为是难以**的难题之一。Y. LeCun等人进行了一系列改进，如 “ 共享权值复制神经网络（shared-weight replicated neural network） ” [96]和 “ 空间位移网络（space displacement network） ” [97]通过扩展卷积网络的每一层，覆盖整个输入图像，减少计算量，如图5(b) - (c)所示。这样，只需一次网络的正向传播，就可以提取出整个图像任意位置的特征。这可以看作是当今全卷积网络 ( FCN ) 的原型[110,111]，FCN 几乎是在20年后提出的。CNN也被应用于其他任务，如人脸检测[112,113]和手势实时跟踪[114]（hand tracking of its time）。

2.3.2 Technical Evolution of Multi-Scale Detection

多尺度检测（Multi-scale detection）对象的 “ 不同尺寸 ” 和 “ 不同纵横比 ” 是目标检测的主要技术难题之一。近20年来，多尺度检测经历了多个历史时期：“ 特征金字塔和滑动窗口(2014年前) ”，“ 基于对象建议的检测(2010-2015年) ”，“ 深度回归(2013-2016) ”、“ 多参考检测( multi-reference detection，2015年后 ) ”、“ 多分辨率检测( multi-resolution detection，2016年后 ) ”，如图6所示。

论文笔记-Object Detection in 20 Years: A Survey

（1）Feature pyramids + sliding windows (before 2014)

随着VJ检测器后计算能力的提高，研究者们开始更加关注一种直观的检测方法，即构建“特征金字塔+滑动窗口”。从2004年到2014年，基于这种检测范式构建了许多里程碑式的检测器，包括HOG检测器、DPM，甚至深度学习时代的Overfeat检测器[103] ( ILSVRC-13定位任务获奖者 )。

早期的检测模型，如VJ检测器和HOG检测器，都是专门针对具有 “ 固定长宽比 ” ( 如人脸和直立的行人 )的对象，只需构建特征金字塔，并在其上滑动固定大小检测窗口。当时没有考虑检测 “ 各种纵横比 ”。为了检测具有更复杂外观 ( 如 PASCAL VOC 中的外观 ) 的对象，R. Girshick等人开始在特征金字塔外寻找更好的解决方案。“ 混合模型 ”[15]是当时最好的解决方案之一，它通过训练多个模型来检测不同纵横比的物体。除此之外，基于范例的检测[36,115]通过为训练集的每个对象实例 ( 范例 ) 训练单独的模型，提供了另一种解决方案。

随着现代数据集中的对象 ( 例如 MS-COCO ) 变得更加多样化，混合模型或基于范例的方法不可避免地会导致更加复杂的检测模型。于是一个问题就自然而然地产生了：是否存在一种统一的多尺度方法来检测不同长宽比的对象? “ 对象建议（object proposals） ” 的提出已经回答了这个问题。

（2）Detection with object proposals (2010-2015)

对象建议（object proposals）引用一组可能包含任何对象的与类无关的候选框。它于2010年首次应用于目标检测[116]。使用对象建议进行检测有助于避免对图像进行彻底的滑动窗口搜索。

目标/对象建议检测算法应满足以下三个要求：1) 高召回率，2) 高定位准确率，3) 在前两个要求的基础上，提高精度，减少处理时间。现代的建议检测方法可以分为三类：1) 分割分组方法[42, 117-119]， 2) 窗口评分方法[116,120-122]，3) 基于神经网络的方法[123-128]。我们建议读者阅读以下论文，以全面回顾这些方法[129,130]。

早期的建议检测方法遵循自底向上的检测理念[116,120]，深受视觉显著性检测的影响。后来，研究人员开始转向低水平的视觉 ( 如边缘检测 ) 和更精细的手工技能，以改进候选框的定位[42,117 - 11,122,131]。2014年以后，随着深度CNN在视觉识别领域的普及，基于自上而下学习的方法在这个问题上开始显示出更多的优势[19,121,123,124]。从那时起，对象建议检测就从自下而上的视觉演化为 “ 对一组特定对象类的过度拟合 ”，检测器与建议生成器之间的区别也变得模糊[132]。

随着 “ object proposal ” 对滑动窗口检测的革命性变革，并迅速主导基于深度学习的检测器，2014-2015年，许多研究者开始提出以下问题：object proposal 在检测中的主要作用是什么? 是为了提高准确度，还是仅仅为了加快检测速度? 为了回答这个问题，一些研究人员试图削弱 proposal 的作用[133]或单纯对CNN特征进行滑动窗口检测[134-138]，均未得到满意的结果。在单级检测器和 “ 深度回归 ” 技术兴起之后，建议检测很快就淡出了人们的视线。

（3）Deep regression (2013-2016)

近年来，随着GPU计算能力的提高，人们处理多尺度检测的方式变得越来越直接和暴力。使用深度回归来解决多尺度问题的思想非常简单，即，基于深度学习特征直接预测边界框的坐标[20,104]。这种方法的优点是简单易行，缺点是定位不够准确，特别是对于一些小对象。“ 多参考检测 ” 解决了这一问题。

（4）Multi-reference/-resolution detection (after 2015)

论文笔记-Object Detection in 20 Years: A Survey

Object Detection in 20 Years: A Survey

1 INTRODUCTION

2 OBJECT DETECTION IN 20 YEARS

2.1 A Road Map of Object Detection

2.1.1 Milestones: Traditional Detectors（里程碑：传统检测器）

2.1.2 Milestones: CNN based Two-stage Detectors

2.1.3 Milestones: CNN based One-stage Detectors

2.2 Object Detection Datasets and Metrics

2.2.1 Metrics

2.3 Technical Evolution in Object Detection

2.3.1 Early Time’s Dark Knowledge

2.3.2 Technical Evolution of Multi-Scale Detection

相关推荐