Rich feature hierarchies for accurate object detection and semantic segmentation
用于精确目标检测和语义分割的丰富特征层次结构

摘要：

在经典的PASCAL VOC数据集上测得的目标检测性能在最近几年已经达到稳定状态。表现最佳的方法是复杂的集成系统，通常将多个低级图像特征与高级上下文结合在一起。在本文中，我们提出了一种简单且可扩展的检测算法，相对于在数据集VOC 2012上已有的最佳结果，该算法将平均精度均值（mAP）提高了30％以上，达到了53.3％。我们的方法结合了两个关键点：
（1）一是可以将大容量的卷积神经网络（CNNs）应用于自下而上的区域建议，以便对目标进行定位和分割；
（2）当缺少有标注的训练数据时，先对辅助任务进行有监督的预训练，然后再对特定问题进行微调，这样可以显著地提高性能。
因为我们将区域建议与CNN结合在了一起，所以我们将我们的方法称为R-CNN：Regions with CNN features。我们将R-CNN与OverFeat（一种最近提出的基于CNN架构的滑动窗口检测器）进行了比较。我们发现在200类ILSVRC2013检测数据集上，R-CNN与OverFeat相比具有很大的优势。完整系统的源代码位于http://www.cs.berkeley.edu/~rbg/rcnn。

1．介绍

特征很重要。在过去的十年中，各种视觉识别任务的进展很大程度上都是基于SIFT [29]和HOG [7]的使用。但是，如果我们关注PASCAL VOC目标检测[15]这个经典的视觉识别任务的性能，通常会发现，在2010-2012年进展缓慢，通过构建集成系统和采用成功方法的变体获得的收益很小。
SIFT和HOG是块方向直方图，一种大致类似于V1层（灵长类动物视觉通路中的第一个皮质区域）中的复杂细胞的表示方法。但是我们也知道，识别发生在几个下游阶段，这表明计算特征可能是分层次，多阶段的过程，这些过程对于视觉识别来说甚至更为有用。
福岛的 “神经认知机” [19]，一种受生物学启发的分层次的平移不变的模式识别模型，是在这方面的早期尝试。但是，神经认知机缺乏监督训练算法。在Rumelhart等人[33]研究的基础上。 LeCun等人[24]表明，通过反向传播的随机梯度下降对于训练卷积神经网络（CNN）是有效的，卷积神经网络是将神经感知机进行扩展的一类模型。
卷积神经网络在上世纪90年代被广泛使用（例如，[27] ），但后来随着支持向量机的兴起就变得不再流行了。在2012年，Krizhevsky等人[23]在ImageNet大规模视觉识别挑战赛（ILSVRC）上展示了更高的图像分类准确率，重新引起了人们对CNN的兴趣[9，10]。他们的成功来自于在120万张带标签的图像上训练大型CNN，以及在LeCun的CNN上进行了一些改动（例如，max非线性修正（Relu）和“dropout”正则化）。
在ILSVRC 2012研讨会上，人们对ImageNet结果的重要性进行了激烈的辩论。中心问题可以归结为：ImageNet上CNN分类结果在多大程度上能够应用到PASCAL VOC挑战赛上的目标检测？
我们通过弥合图像分类和目标检测之间的差距来回答这个问题。本文首次展示了，与基于简单类HOG特征的系统相比，CNN可以大幅提高在PASCAL VOC上目标检测的性能。为了获得此结果，我们关注两个问题：使用深度网络定位物体和仅使用少量带标注的检测数据来训练大型模型。
与图像分类不同，检测需要在图像中定位（可能很多）物体。一种方法将定位视为回归问题。但是，Szegedy等人的工作[38]，与我们自己的观点都表明，该策略在实践中可能效果不佳（他们报告在VOC 2007的mAP为30.5％，而我们的方法为58.5％）。另一种方法是构建一个滑动窗口检测器。CNN已经使用这种方式至少二十年了，通常用于受约束的对象类别，例如人脸[32,40]和行人[35]。为了维持高空间分辨率，这些CNN通常仅采用两个卷积层和池化层。我们也考虑了采用滑动窗口的方法。但是，我们网络中的高层单元具有五个卷积层，对于输入图像，它们有非常大的感受野（195 × 195 像素）和步长（32 × 32 像素），这使采用滑动窗口的方法中的精确定位成为一项开放的技术挑战。
取而代之的是，我们通过在“使用区域识别”范式[21]中进行操作来解决CNN定位问题，这已成功地用于目标检测[39]和语义分割[5]。在测试时，我们的方法为输入图像生成大约2000个类别独立的候选区域，使用CNN从每个候选区域中提取固定长度的特征向量，然后使用多个特定的线性SVM对每个区域进行分类。我们使用一种简单的技术（仿射图像扭曲）从每个候选区域计算出固定尺寸的特征向量作为CNN输入，而不考虑区域的形状。图1概述了我们的方法并突出了我们的一些结果。由于我们的系统将区域建议与CNN结合在了一起，所以我们将此方法称为R-CNN：Regions with CNN features。

目标检测论文 R-CNN 论文翻译
图1：目标检测系统概述。我们的系统（1）需要一张输入图像，（2）提取大约2000个自下而上的候选区域，（3）使用大型卷积神经网络（CNN）计算每个区域的特征，然后（4）使用特定的线性SVMs对每个区域进行分类。R-CNN在pascal voc 2010上的平均精度均值（mAP）为53.7％。为进行比较，[39]报告使用了相同的候选区域，但使用空间金字塔和视觉词袋的方法，mAP为35.1％。流行的可变形的组件模型（DPM）的性能为33.4％。在200类的ILSVRC2013 检测数据集上，R-CNN的mAP为31.4％，相较于OverFeat有很大的提升，Overfeat以往最好的结果是24.3％

在本文的更新版本中，我们在200类ILSVRC 2013检测数据集上直接比较了R-CNN和最近提出的OverFeat检测系统。OverFeat使用滑动窗口CNN进行检测，是到目前为止在ILSVRC 2013检测中表现最好的方法。但我们发现R-CNN的表现明显优于OverFeat，它们的mAP分别为31.4%和24.3%。
检测面临的第二个挑战是标记数据稀缺，当前可用的数据数量不足以训练大型CNN。传统的解决方法是使用无监督预训练，然后监督微调（例如，[35] ）。本文的第二个主要贡献是表明在缺少数据时，对大型辅助数据集（ILSVRC）进行监督预训练，然后对小型数据集（PASCAL）进行特定问题的微调，是学习大容量CNNs的有效范例。在我们的实验中，对检测进行微调可将mAP提高8个百分点。经过微调后，我们的系统在VOC 2010上的mAP达到了54％，而经过高度调节的基于HOG的可变形组件模型（DPM）[17，20]仅达到33％。我们还向读者指出Donahue 等人的同期著作。[12]，他们证明了Krizhevsky的CNN可以（无需微调）用作黑盒特征提取器，在包括场景分类，细粒度次类划分和自适应域在内的多个识别任务上表现出杰出的性能。
我们的系统也非常有效。唯一的类依赖计算是相当小的矩阵向量乘积和贪婪的非极大值抑制。此计算属性源自所有类别之间共享的特征，并且这些特征的维数也比以前使用的区域特征低两个数量级（参见 [39]）。
了解我们方法的失败模式对于改进它也是至关重要的，因此我们报告了Hoiem 等人的检测分析工具的结果。[23]。作为该分析的直接结果，我们证明了一种简单的边界框回归方法可以显着减少错误定位，这是主要的错误模式。
在开发技术细节之前，我们注意到，由于R-CNN在区域上进行操作，因此很自然地将其扩展到语义分割的任务。稍加修改，我们在PASCAL VOC分割任务上也取得了竞争性结果，在VOC 2011测试集上，平均分割精度为47.9％。

2 使用R-CNN进行目标检测

我们的物体检测系统包括三个模块。第一个生成与类别无关的区域建议。这些建议定义了可用于我们的检测器的候选检测集。第二个模块是一个大型卷积神经网络，它从每个区域提取一个固定长度的特征向量。第三个模块是一组指定类别的线性SVM。在本节中，我们介绍每个模块的设计决策，描述其在测试阶段的用法，详细了解如何学习其参数以及在PASCAL VOC 2010-12上显示结果。

2.1模块设计

区域建议

各种最新的论文提供了用于生成与类别无关的区域建议的方法。示例包括：objectness（对象状态）, selective search（选择性搜索）,category-independent object proposals（类别无关的对象建议） , constrained parametric min-cuts (CPMC) 约束参数最小切割 , multi-scale combinatorial grouping多尺度组合,和Cires 等等.他们通过将CNN应用于规则间隔的正方形组来检测有丝分裂细胞，这是区域建议的特例。因为R-CNN不关心特定的区域建议方法，我们使用selective search选择性搜索，以和原有的检测工作进行可控的比较。

特征提取

我们使用Krizhevsky 等人描述的用Caffe 实现的CNN ，从每个建议区域中提取一个4096维的特征向量。特征的计算是由正向传播一张均值相减后227 × 227RGB图像并通过五个卷积层和两个全连接层完成的。我们向读者介绍[24]和[25]以了解更多的网络架构细节。
为了计算建议区域的特征，我们必须首先将该区域的图像数据变形为与CNN兼容的形式（其结构要求输入固定的227 × 227像素尺寸）。在任意形状区域的许多可能变换中，我们选择最简单的方式。无论候选区域的大小或纵横比如何，我们都会将其周围的紧密边界框中的所有像素变换为所需的大小。在变形之前，我们先扩大紧密的边界框，以便在变形的尺寸处存在精确的p像素，表示原始框周围变形图像的上下文信息（我们使用 p = 16）。图2显示了变形训练区域的随机采样。附录A讨论了变形的替代方法。

目标检测论文 R-CNN 论文翻译

图2：VOC 2007训练集中变形的训练样本。

2.2测试阶段检测

在测试时，我们对测试图像进行选择性搜索，提取大约2000个建议区域（我们在所有实验中均使用选择性搜索的“快速模式”）。我们对每个建议区域进行变形，然后通过CNN进行前向传播，获取特征。然后，对于每个类别，我们使用针对该类别训练的SVM对每个提取的特征向量进行评分。对于给定图像中所有计分的区域，我们应用贪婪的非极大值抑制（对于每个类别都是独立的），如果该区域的交点重叠（IoU），重叠且评分较高的选定区域大于学习阈值，则拒绝该区域。

运行阶段分析

两个属性使检测效率更高。首先，所有CNN参数在所有类别之间共享。其次，与其他常见方法（例如带有视觉词袋编码的空间金字塔）相比，CNN所计算的特征向量是低维的。例如，UVA检测系统中使用的特征比我们的特征大两个数量级（360k vs 4k维度）。
这种共享的结果是，计算建议区域和特征所花费的时间（GPU上的13s /图像或CPU上的53s /图像）将在所有类别上分摊。唯一特定于类别的计算是特征和SVM权重以及非最大值抑制之间的点积。实际上，一张图像的所有点积都批处理为单个矩阵相乘。特征矩阵通常是2000 × 4096 ，SVM权重矩阵为 4096 × N，N是类别的总数。
该分析表明，R-CNN可以扩展到数千个对象类，而无需求助于哈希等近似技术。即使有10万个类，在现代多核CPU上，所得的矩阵乘法也只需10秒。这种效率不仅仅是使用区域建议和共享特征的结果。由于具有高维特征，UVA系统的速度要慢两个数量级，而且其仅存储100k线性预测器就需要134GB的内存，而低维特征只有1.5GB。
将R-CNN与Dean等人的最新工作进行对比也很有趣。关于使用DPM和哈希的可伸缩检测。当引入1万个干扰项类别时，他们报告VOC 2007上的mAP约为16％，每个图像运行5分钟。使用我们的方法，一万个检测器在CPU上运行大约需要一分钟，并且由于没有使用近似估计，mAP将保持在59％（第3.2节）。

2.3训练

监督预训练

我们在具有图像级标注（即，没有边界框标签）的大型辅助数据集（ILSVRC 2012）上进行有区别的预训练。使用开源Caffe CNN库进行了预训练。简而言之，我们的CNN几乎与Krizhevsky 等人的表现相当。比在ILSVRC 2012验证集上获得的top-1错误率高2.2个百分点。这种差异是由于简化了训练过程。

特定领域的微调

为了使我们的CNN适应新任务（检测）和新领域（的Win窗口），我们仅使用变形区域建议进行CNN参数的随机梯度下降（SGD）训练。除了用随机初始化的（N+1）类分类层（N个类+1背景）替换CNN的ImageNet特定的1000类分类层之外，CNN架构不变。对于VOC，原始的N=20，ILSVRC2013, N = 200。我们会将所有的建议区域与ground-truth box进行比较，重叠 ≥ 0.5IoU的作为该框正例，其余部分作为负例。我们设置0.001（初始预训练速率的1/10）的学习率开始进行SGD，这允许微调在不破坏初始化的情况下取得进展。在每个SGD迭代中，我们对32个正窗口（在所有类中）和96个背景窗口进行统一采样，以构建大小为128的微型批处理。我们将采样偏向正窗口，因为与背景相比它们极少见。
目标类别分类器
考虑训练一个二元分类器来检测汽车。显然，紧密包围汽车的图像区域应该是一个正例。同样，很明显，与汽车无关的背景区域应该是负例。还不清楚的问题是如何标记与汽车部分重叠的区域。我们使用IoU重叠阈值解决了此问题，将IoU低于该阈值的区域定义为负例。通过在验证集上进行从{ 0 ，0.1 ，… ，0.5 }的网格搜索选择了这个重叠阈值为0.3。我们发现，小心地选择此阈值很重要。如[39]所述，将其设置为0.5 会使mAP降低5个点。同样，将其设置为0会使mAP降低4个点。正例就是每个类别的真实边界框。
一旦提取了特征并应用于训练标签，我们将为每个类优化一个线性SVM。由于训练数据太大而无法存储在内存中，因此我们采用标准的hard negative mining method难负例挖掘算法。hard negative mining method能够快速收敛，并且实际上，仅对所有图像进行一次遍历（一次训练）之后，mAP就会停止增加。
在附录B中，我们讨论了为什么在微调与SVM训练中正例和负例的定义不同。我们还将讨论为什么有必要训练检测分类器而不是简单地使用经过微调的CNN的最后一层softmax层的输出。

2.4 Pascal Voc 2010-12的结果

按照PASCAL VOC最佳实践步骤，我们在VOC 2007数据集上验证了所有的设计决策和超参数。为了获得在VOC 2010-12数据集上的最终结果，我们对VOC 2012上的CNN进行了微调，并优化了VOC 2012上的检测SVM。对于两种主要算法变体（带和不带边界框回归），我们都将测试结果提交给了评估服务器一次。
表1显示了在VOC 2010上的完整结果。我们将我们的方法与四个强大的基准进行了比较，包括SegDPM，它结合了DPM检测器和语义分割系统的输出，并使用了其他检测器间上下文和图像分类器计分。最接近的对比是Uijlings 等人的UVA系统。因为我们的系统使用了相同的区域建议算法。为了对区域进行分类，他们的方法建立了一个四级空间金字塔，并使用密集采样的SIFT，Extended Opponent SIFT和RGB-SIFT描述符进行填充，每个向量都使用4000字码本进行了量化。使用直方图相交核SVM进行分类。与他们的多特征，非线性内核SVM方法相比，我们在mAP方面实现了很大的提高，从35.1％提高到了53.7％，而且还快得多。我们的方法在VOC 2011/12测试中达到了类似的性能（53.3％mAP）。
目标检测论文 R-CNN 论文翻译

表1： VOC 2010测试的检测平均准确度（％）。R-CNN与UVA和Regionlets最直接可比，因为所有方法都使用选择性搜索区域建议。边界框回归（bb）在3.4节中描述。在发布时，SegDPM是Pascal VOC排行榜上的佼佼者。DPM和SegDPM使用其他方法未使用的上下文记录。

2.5. Results on ILSVRC2013 detection

我们在200类的ILSVRC 2013 检测数据集上运行了R-CNN，使用的系统超参数与在PASCAL VOC上使用的相同。我们执行了相同的步骤，将两次的测试结果上传给了ILSVRC 2013 评估服务器，一次有边界框回归，一次没有。
图3 对比了在ILSVRC 2013竞赛中R-CNN与其他方法以及OverFeatd的结果。R-CNN达到了31.4%map，大大领先了第二名的OverFeatd，其结果为24.3%。为了让大家了解类的AP分布，在文章最后给出了一个框图和表来显示每个类的APs，见表8。大多数的参赛作品（OverFeat, NEC-MU, UvA-Euvision, Toronto A, and UIUC-IFP）都用到了卷积神经网络，这表明了在如何使用CNN进行目标检测时，细微差别将会产生不同的结果。
目标检测论文 R-CNN 论文翻译
图3: (左)ILSVRC2013检测测试集的mAP。*之前的方法使用外部训练数据(图像和标签来自于ILSVRC所有案例中的分类数据集)。(右)框图为每种方法的200个平均精度值。框图中没有显示比赛后OverFeat的结果，因为每个类的APs还没有可用(R-CNN，每个类的APs在表8中，也包含在上传到arXiv.org的技术报告源中;见R-CNN-ILSVRC2013-APs.txt)。红色的线标记了AP的中位数，框图下方和顶部是第25和第75个百分比。每条线代表每种方法的最大值和最小值。每一个AP都被绘制成一个绿点(最好放大观看)。
在第四节，我们会给出ILSVRC 2013检测数据集的一个概述和提供一些细节，这些细节关乎我们在ILSVRC 2013数据集上运行R-CNN时做出的选择。

3 可视化，消融和错误模式

3.1可视化学习特征

第一层过滤器可以直接可视化并且易于理解。它们捕获定向的边缘和对应的颜色。理解后续的层更具有挑战性。Zeiler和Fergus在[42]中提出了一种视觉上有吸引力的反卷积方法。我们提出了一种简单（且互补）的非参数方法，该方法直接显示网络学到的知识。
这个想法是在网络中选出来一个特定单元（功能），并像使用一个正确的对象检测器一样使用它。就是说，我们根据一大批被提供的区域建议（大约一千万个）计算这个单元的**值，并将建议区域按**值从高排到低排序，执行非最大抑制，然后显示得分最高的区域。我们的方法通过确切地显示触发它的输入，让选定的单元“为自己说话”。我们不进行平均操作是为了查看不同的视觉模式并深入了解由该单元计算出的不变性。
我们可视化pool5的单元，这是网络中的第5个，也是最后一个卷积层的最大池化输出。pool5的特征图是 6 × 6 × 256 = 9216。忽略边界效应，每个pool5的单元的感受野是 195 × 195 ，输入层是 227 × 227像素。pool5的一个中央单元几乎具有全局的视角，而靠近边缘的单元只有较小的固定支撑。
图4中的每一行都显示了一个pool5的单元的前16个**值，这个单元来自于我们在VOC 2003训练集上进行微调过的CNN。这里只展示了256个功能独特的单元中的六个（附录D包括更多）。这些单元作为代表样本被选出来用以显示网络学到了什么。在第二行中，我们看出一个在狗脸和点阵列上触发的单元。对应于第三行的单位是红色斑点检测器。还有用于人脸和更抽象的图案的检测器，例如带有窗口的文本和三角形结构。该网络似乎正在学习一种表示形式，该表示形式将少量的类调优特征与形状，纹理，颜色和材料属性等分布式表示形式结合在一起。后续的全连接层FC6 能够对这些丰富的特征进行大量的组合以建模。
目标检测论文 R-CNN 论文翻译

图4：pool5前六个单元。接受野和**值以白色绘制。有些单位与概念保持一致，例如人（第1行）或文本（第4行）。其他单元捕获纹理和材料属性，例如点阵列（2）和镜面反射（6）。

3.2 消融研究

没有调优的各层性能

为了了解哪些层对于检测性能至关重要，我们分析了CNN的最后三层在VOC 2007数据集上的结果。pool5在3.1节中进行了简要描述。最后两层总结如下。
FC6 与pool5完全连接。为了计算特征，它和pool5的feature map（reshape成一个9216维度的向量）做了一个4096×9216的矩阵乘法，并添加了一个bias向量。中间的向量按分量逐个半波校正（x ← 最大值（0 ，x ））。
FC7是网络的最后一层，将由FC6计算得到的特征乘以一个 4096 × 4096 加权矩阵，并同样添加一个偏差矢量并进行半波校正。
我们首先看在PASCAL上没有进行微调的CNN的结果，所有CNN参数仅在ILSVRC 2012上进行了预训练。逐层分析性能显示出 FC6的特征要比FC7要好。这意味着可以删除29％的CNN参数（约1680万）而不会降低mAP。更令人惊讶的是，同时删除 FC7 和 FC6 ，仅仅使用pool5的特征，也就是只使用6%的CNN参数，也能有非常好的结果。可见CNN的主要表达力来自于卷积层，而不是全连接层。这一发现表明，仅使用CNN的卷积层，在HOG上计算任意尺寸图像的稠密特征图具有潜在的实用性。这种表示法将可以直接在pool5的特征上进行滑动窗口检测器（包括DPM）的实验.
目标检测论文 R-CNN 论文翻译
表2： voc 2007测试集的mAP（％）。第1-3行显示了没有进行微调的r-cnn性能。第4-6行显示了在ILSVRC 2012上进行了预训练，然后在voc 2007 训练集上进行了微调（ft）的r-cnn的性能。第7行包含一个简单的边界框回归（bb）阶段，可减少定位错误（第3.4节）。第8-10行将dpm方法作为基准。第一个仅使用HOG，而后两个使用不同的特征学习方法来增加或替换HOG。

微调后的各层性能

我们看一下在VOC 2007 训练集上进行参数调优后的CNN的结果。提升是惊人的（表2第 4-6行）：微调使mAP增加了8.0个百分点，到了54.2％。对FC6和FC7进行微调要比pool5带来的改善要大得多，这表明从ImageNet pool5学习到的特征通用性较强，并且大多数的改进是通过在它们之上学习特定的非线性分类器获得的。

与最新特征学习方法的比较

相当少的特征学习方法被应用于PASCAL VOC 检测。我们看一下两种基于可变形组件模型的最新方法。作为参考，我们还提供了基于标准HOG的DPM模型的结果。
第一种DPM特征学习方法DPM ST ，通过“sketch token”概率的直方图增强了HOG特征。直观地，sketch token一个穿过图像中心轮廓的紧密分布。sketch token概率是通过一个随机森林在每个像素上计算得来的，这个随机森林是被训练用来将35*35的像素分类为150个sketch token中的一个或背景。
第二种方法DPM HSC ，用histograms of sparse codes (HSC)代替HOG。为了计算HSC，在每个像素上使用一个学习到的100 7 * 7 像素（灰度空间）原子求解稀疏码**，**结果有三种方式（全波和半波）进行校正，空间池化，l2标准化，然后进行幂运算。
所有R-CNN的变体都大大优于三个DPM方法（表2，第 8-10行），包括使用特征学习的两个方法。与仅使用HOG功能的最新版本的DPM相比，我们的mAP高出20个百分点：54.2％ vs 33.7％，相对改善了61％。HOG和sketch token的组合比单独的HOG提高了2.5 mAP点，而HSC比HOG提高了4 mAP点（与内部私有DPM方法进行比较，两者均使用性能低于开源版本的DPM的非公开版本）。这些方法实现的mAP分别为29.1％和34.3％。

3.3 网络结构

本文的大部分结果使用的是Krizhevsky等人提出的网络架构。然而，我们发现
结构的选择对R-CNN的检测性能有很大的影响。表3显示了我们使用Simonyan和Zisserman等人最近提出的16层深度网络在VOC 2007上测试的结果。这个网络在最近的ILSVRC 2014级分类挑战中表现最好。这个网络具有同质结构，由卷积核为3*3的13个卷积层，五池化层，最后有三个全连接层。因为OxfordNet，我们称这个网络为" O-Net "，就像它的原型TorontoNet被称为“T-Net”。
为了在R-CNN中使用O-Net，我们从Caffe Model Zoo 上下载了VGG ILSVRC 16 layer 模型预训练后的公开使用的网络权值。然后我们就像使用T-Net一样用同样的协议来微调网络。唯一的区别我们按照要求，使用了更小的批量(24个样品)以便适合GPU的内存。表3的结果表明，使用O-Net的CNN大大超过使用T-Net的R-CNN，mAP从58.5%提升到了66.0%。但是,它有一个相当大的缺点，就是计算时间，使用O-Net的时间大约是使用T-Net的7倍。
目标检测论文 R-CNN 论文翻译
表3: 两种不同的CNN网络结构在VOC2007 测试集上的平均检测精度 (%)。前两行是Krizhevsky等人提出的网络结构（T-Net）的结果。第3行和第4行是使用Simonyan和Zisserman等人最近提出的16层网络结构的结果（O-Net）。

3.4 检测误差分析

我们应用了Hoiem 等人的优秀的检测分析工具。揭示我们方法的错误模式，了解微调是如何改变它们的，并观察比较我们和DPM的错误类型。限于本文的篇幅，分析的完整内容我们无法全部展示出来，请读者参考[21]来了解一些更详细的信息（例如“规范化AP”）。因为这些分析最好要有关联图，因此我们在图5和图6的题注中进行讨论。
目标检测论文 R-CNN 论文翻译

图5：假正例类型的分布。每个图都显示了假正例的演变分布，并且按照分数递减的顺序包含了更多的fps。FP共分为4种类型：loc-定位不良（正确分类并且IoU检测介于0.1和0.5之间，或者重复）；sim-和近似类别混淆；Oth-和不同对象类别混淆；BG-在背景上触发的FP。与DPM比较（请参阅[21]），那么我们的大部分错误是由于定位不良而引起的，而不是与背景或其他对象类造成的混淆，这表明cnn特征比HOG具有更大的识别性。不好的定位很可能是由于我们使用了自下而上的区域建议，以及通过对cnn进行全图像分类的预训练而获得的位置不变性。第三列显示了我们的简单边界框回归方法能够修复定位错误。
目标检测论文 R-CNN 论文翻译
图6：对目标特征敏感。每个图均显示标准化后AP的均值（超过类）（请参阅[21]），以获取六个不同对象特征（遮挡，截断，边界框区域，长宽比，视点，部分可见性）内性能最高和最低的子集。我们显示了带和不带微调（ft）和边界框回归（bb）以及DPM voc-release5的方法（r-cnn）的图。总体而言，微调不会降低灵敏度（最大值和最小值之间的差异），但会实质上改善几乎所有特性的最高和最低性能子集。这表明，微调不仅可以改善纵横比和边界框区域中性能最低的子集，还可以根据我们变形网络输入的方式来推测。同时，微调可以提高所有特性的鲁棒性，包括遮挡，截断，观察点和零件可见性。

3.4 边界框回归

基于误差分析，我们实现了一种减少定位误差的简单方法。受DPM 中使用的bounding-box回归的启发，我们训练了一个线性回归模型，为一个通过选择性搜索的候选区域的Pool5特征预测一个检测窗口。附录C中提供了完整的详细信息。表1，表2，和图4的结果显示，这种简单的方法修复了大量的错误定位检测，mAP提升了3到4个点。

4 语义分割

5 结论

近年来，目标检测性能停滞不前。表现最佳的检测系统是复杂的集合体，将来自对象检测器和场景分类器的多个低层图像特征与高层上下文结合在一起。本文提出了一种简单且可扩展的目标检测算法，与PASCAL VOC 2012上的最佳以往结果相比，相对改进了30％。
我们能够取得这个表现主要通过两个方面。首先是将大容量卷积神经网络应用于自下而上的建议区域，以定位和分割对象。第二个是在缺少标记的训练数据时训练大型CNN的方法。我们显示出，对具有丰富数据的辅助任务（图像分类）进行有监督的网络预训练，然后针对数据稀缺（检测）的目标任务微调网络是非常有效的。我们推测，“监督的预训练/特定领域的微调”范例将对多种数据稀缺的视觉问题非常有效。
我们的结论是，通过结合计算机视觉和深度学习（自下而上的区域建议和卷积神经网络）的经典工具，我们取得了这些成果，这一点很重要。两者是自然而不可避免的结合，而不是违背科学探究路线。