目标检测涉及到目标分类和目标定位，但很多基于 CNN 的目标检测方法都存在分类置信度和定位置信度不匹配的问题。针对这一问题，一种称之为 IoU-Net 的目标检测新方法被提出，在基准方法的基础上实现了显著的提升。该论文已被将于当地时间 9 月 8-14 日在德国慕尼黑举办的 ECCV 2018 接收为口头报告。此外，该论文的三位并列一作是在旷视科技实习期间完成并提交的这篇论文。

论文地址：https://arxiv.org/abs/1807.11590

代码地址：https://github.com/vacancy/PreciseRoIPooling

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

摘要：现代基于 CNN 的目标检测器依靠边界框回归和非极大抑制（NMS）来定位目标，其对类别标签的预测概率可以天然反映每个框的分类置信度，然而对框的定位置信度却缺失了。这使得原本定位准确的边界框会在迭代回归的过程中偏离目标，又或甚至在 NMS 过程中受到抑制。研究者在本文中提出 IoU-Net，可学习预测每个检测得到的边界框和与之匹配的目标之间的 IoU 作为该框的定位置信度。利用这种定位置信度，检测器能确保定位更准确的边界框在 NMS 过程中被保留下来，从而改进了 NMS 过程。此外，将预测得到的 IoU 作为优化目标，一种基于优化的边界框修正方法也同时被提出。研究者在 MS-COCO 数据集上进行了大量实验，结果证明了 IoU-Net 的有效性，并且还表明其能够轻松地集成并提高包括 Faster R-CNN、FPN、Cascade R-CNN 等多种当前最佳的目标检测器。

1 引言

目标检测是很多下游视觉应用的前提基础，比如实例分割 [19,20]、人体骨架绘制 [27]、人脸识别 [26] 和高级目标推理 [30]。它结合了目标分类和目标定位两个任务。现代大多数目标检测器的框架是 two-stage [9,8,22,16,10]，其中目标检测被定义为一个多任务学习问题：1）区分前景物体框与背景并为它们分配适当的类别标签；2）回归一组系数使得最大化检测框和目标框之间的交并比（IoU）或其它指标。最后，通过一个 NMS 过程移除冗余的边界框（对同一目标的重复检测）。

在这样的检测流程中，分类和定位被用不同的方法解决。具体来说，给定一个提议框（proposal），每个类别标签的概率可自然而然地用作该提议的「分类置信度」，而边界框回归模块却只是预测了针对该提议框的变换系数，以拟合目标物体的位置。换而言之，在这个流程缺失了「定位置信度」。

定位置信度的缺失带来了两个缺点。（1）首先，在抑制重复检测时，由于定位置信度的缺失，分类分数通常被用作给检测框排名的指标。在图 1(a) 中，研究者展示了一组案例，其中有更高分类置信度的检测框却与其对应的目标物体有更小的重叠。就像 Gresham 著名的「劣币驱逐良币」理论一样，分类置信度和定位准确度之间的不匹配可能会导致定位更准确的边界框在 NMS 过程中反而被更不准确的边界框抑制了。（2）其次，缺乏定位置信度使得被广泛使用的边界框回归方法缺少可解释性或可预测性。举个例子，之前的研究 [3] 报告了迭代式边界框回归的非单调性。也就是说，如果多次应用边界框回归，可能有损输入边界框的定位效果（见图 1(b)）。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

（a）分类置信度和定位准确度不对齐的示例。黄框表示真实目标框，红框和绿框都是 FPN [16] 所得到的检测结果。定位置信度是由研究者提出的 IoU-Net 计算得到的。使用分类置信度作为排名指标，会导致定位更准确的边界框（绿框）在传统的 NMS 流程被错误地删去。2.1 节提供了定量分析。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

（b）在迭代式边界框回归中非单调定位的示例。2.2 节提供了定量分析。

图 1：由缺乏定位置信度所造成的两个缺点的图示。这些示例选自 MS-COCO minival [17]。

研究者在这篇论文中引入了 IoU-Net，其能预测检测到的边界框和它们对应的真实目标框之间的 IoU，使得该网络能像其分类模块一样，对检测框的定位精确程度有所掌握。这种简单的预测 IoU 值能为研究者提供前述问题的新解决方案：

1.IoU 是定位准确度的一个天然标准。研究者可以使用预测得到的 IoU 替代分类置信度作为 NMS 中的排名依据。这种技术被称为 IoU 引导式 NMS（IoU-guided NMS），可消除由误导性的分类置信度所造成的抑制错误。

2. 研究者提出了一种基于优化的边界框修正流程，可与传统的基于回归的边界框修正方法分庭抗礼。在推理期间，预测得到的 IoU 可用作优化目标，也可作为定位置信度的可解释性指示量。研究者提出的精准 RoI 池化层（Precise RoI Pooling layer）让研究者可通过梯度上升求解 IoU 优化。研究者表明，相比于基于回归的方法，基于优化的边界框修正方法在实验中能实现定位准确度的单调提升。这种方法完全兼容并可整合进各种不同的基于 CNN 的检测器 [16,3,10]。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

2 深入目标定位

首先，我们探讨了目标定位的两个缺点：分类置信度和定位精度之间的不一致以及非单调边界框回归。标准FPN [16]检测器在MS-COCO trainval35k上作为基线进行训练，并在研究的最小范围上进行测试。

2.1 分类准确度和定位准确度不匹配

为了消除重复的边界框，NMS自从[4]以来一直是大多数物体探测器中不可或缺的组成部分。 NMS以迭代方式工作。在每次迭代时，选择具有最大分类置信度的边界框，并使用预定义的重叠阈值消除其相邻框。在Soft-NMS [2]算法中，盒子消除被置信度的减少所取代，从而导致更高的召回率。最近，已经提出了一组基于学习的算法作为无参数NMS和Soft-NMS的替代方案。 [24]计算所有边界框的重叠矩阵，并执行亲和传播聚类以选择聚类的样本作为最终检测结果。 [11]提出了GossipNet，一种基于边界框和分类置信度为NMS训练的后处理网络。 [12]提出了一种端到端网络，用于学习检测到的边界框之间的关系。然而，这些基于参数的方法需要更多的计算资源，这限制了它们的实际应用。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

图 2：边界框与其对应目标框的 IoU 与分类/定位置信度之间的关系。对那些与目标框的 IoU 高于 0.5 的检测框，其 Pearson 相关系数为 (a) 0.217 和 (b) 0.617。（a）分类置信度表示了一个边界框的类别，但不能被解读成定位准确度。（b）为了解决这个问题，研究者提出了 IoU-Net 来预测每个检测到的边界框的定位置信度，即其与对应的目标框的 IoU。

在广泛采用的NMS方法中，分类置信度用于对边界框进行排序，这可能是有问题的。我们在NMS之前可视化所有检测到的边界框的分类置信度分布，如图2（a）所示。 x轴是检测到的框与其匹配的地面实况之间的IoU，而y轴表示其分类置信度。 Pearson相关系数表明定位精度与分类置信度没有很好的相关性。

我们将其归因于大多数基于CNN的物体探测器在区分前景（正）样本和背景（负）样本时使用的目标。如果检测到的边界框框det在训练期间被认为是正的，如果其具有地面实况边界框之一的IoU大于阈值Ω训练。该目标可能与定位精度不一致。图1（a）显示了具有较高分类置信度的边界框具有较差定位的情况。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

图 3：经过 NMS 之后得到的正例边界框的数量，根据它们与对应的目标框之间的 IoU 分组。在传统 NMS 中（蓝色条形图），定位准确的边界框中有很大一部分会被错误抑制，这是由分类置信度和定位准确度之间的不匹配造成的，而 IoU 引导式 NMS（黄色条形图）则能保留定位更准确的边界框。

回想一下，在传统的NMS中，当单个对象存在重复检测时，将保留具有最大分类置信度的边界框。然而，由于未对准，具有更好定位的边界框可能在NMS期间被抑制，导致对象的不良定位。图3定量地显示了NMS之后的正边界框的数量。边界框按其IoU分组，并具有匹配的地面实况。对于与相同的地面实况匹配的多个检测，只有具有最高IoU的那个被认为是正的。因此，No-NMS可以被认为是正边界框数量的上限。我们可以看到，在传统的NMS程序中，缺少定位置信度使得超过一半检测到的IoU> 0.9的边界框被抑制，这降低了检测结果的定位质量。

2.2 非单调边界框回归

通常，单个对象本地化可以分为两类：基于边界框的方法和基于分段的方法。基于段的方法[19,20,13,10]旨在为每个实例生成像素级段，但不可避免地需要额外的分段注释。这项工作侧重于基于边界框的方法。
单个对象定位通常被公式化为边界框回归任务。核心思想是网络直接学习将边界框转换（即，缩放或移位）到其指定目标。在[9,8]中，应用线性回归或完全连接层来细化由外部预处理模块（例如，选择性搜索[28]或EdgeBoxes [33]）生成的对象提议的本地化。更快的R-CNN [23]提出了区域提议网络（RPN），其中仅使用预定义的锚点来训练端到端对象检测器。 [14,32]利用无锚，完全卷积网络来处理对象尺度变化。同时，在[29]中提出排斥损失以鲁棒地检测具有人群遮挡的物体。由于其有效性和简单性，边界框回归已成为大多数基于CNN的探测器的重要组成部分。
广泛的下游应用程序（如跟踪和识别）将受益于精确定位的边界框。这提高了对提高定位精度的要求。在一系列物体探测器[31,7,6,21]中，精制的盒子将再次送入边界盒回归器并再次进行细化。该过程执行若干次，即迭代边界框回归。更快的R-CNN [23]首先执行两次边界框回归，以将预定义锚点变换为最终检测到的边界框。 [15]提出了一种群体递归学习方法，以迭代地改进检测结果，并在考虑多个提案之间的全局依赖性的情况下最小化对象提议与基础事实之间的偏移。在[18]中提出了G-CNN，它从图像上的多尺度规则网格开始，并迭代地将网格中的方框推向地面实况。然而，正如[3]中所报道的，应用边界框回归两次以上没有进一步改进。 [3]将此归因于多步边界框回归中的分布不匹配，并通过多阶段边界框回归中的重采样策略对其进行解决。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

图 4：基于优化的与基于回归的 BBox 优化。（a）在 FPN 中比较。当迭代式地应用回归时，检测结果的 AP（平均精度）首先会提升，但会在之后的迭代中快速降低。（b）在 Cascade R-CNN 中比较。迭代 0、1、2 表示 Cascade R-CNN 中的第 1、2、3 个回归阶段。在多轮回归之后，AP 稍有下降，而基于优化的方法则进一步将 AP 提高了 0.8%。

我们通过实验证明了基于FPN和Cascade R-CNN框架的迭代边界框回归的性能。每次迭代后结果的平均精度（AP）分别显示为图4（a）和图4（b）中的蓝色曲线。图4中的AP曲线表明，随着迭代次数的增加，定位精度的提高对于迭代边界框回归是非单调的。非单调性以及不可解释性给应用带来了困难。此外，如果没有检测到的边界框的局部置信度，我们就无法对细化进行细粒度控制，例如对不同的边界框使用自适应迭代次数。

3 IoU-Net

为了定量地分析 IoU 预测的有效性，研究者首先在 3.1 节提出了用于训练 IoU 预测器的方法。在 3.2 和 3.3 节，研究者分别展示了如何将 IoU 预测器用于 NMS 和边界框修正的方法。最后在 3.4 节，研究者将 IoU 预测器整合进了 FPN [16] 等现有的目标检测器中。

3.1 学习预测 IoU

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

图 5：研究者提出的 IoU-Net 的完整架构，详见 3.4 节。输入图像首先输入一个 FPN 骨干网络。然后 IoU 预测器读取这个 FPN 骨干网络的输出特征。研究者用 PrRoI 池化层替代了 RoI 池化层，详见 3.3 节。这个 IoU 预测器与 R-CNN 分支有相似的结果。虚线框内的模块能构成一个单独的 IoU-Net。

如图5所示，IoU预测器从FPN获取视觉特征并估计每个边界框的定位精度（IoU）。我们通过增加实际情况来生成训练IoU-Net的边界框和标签，而不是从RPN中获取建议。具体而言，对于训练集中的所有地面实况边界框，我们使用一组随机参数手动变换它们，从而生成候选边界框集。然后，我们从该候选集中移除具有小于Ω的列的IoU = 0.5的边界框以及匹配的地面实况。我们统一从该候选集w.r.t中抽取训练数据。 IoU。该数据生成过程凭经验为IoU-Net带来了更好的性能和稳健性。对于每个边界框，使用建议的精确RoI池化层从FPN的输出中提取特征（参见第3.3节）。然后将这些特征馈入用于IoU预测的双层前馈网络。为了获得更好的性能，我们使用了类感知的IoU预测器。
IoU预测器与大多数现有的基于RoI的探测器兼容。独立IoU预测器的准确度可以在图2中找到。由于训练过程独立于特定检测器，因此它对输入分布的变化是稳健的（例如，当与不同的检测器协作时）。在后面的部分中，我们将进一步演示如何在完整检测流水线中（即，与RPN和R-CNN联合）联合优化该模块。

3.2 IoU 引导式 NMS

我们通过新的IoU引导的NMS程序解决分类置信度和定位精度之间的不一致，其中分类置信度和定位置信度（IoU的估计）被解开。简而言之，我们使用预测的IoU而不是分类置信度作为边界框的排名关键字。与传统NMS类似，将选择具有最高IoU且具有基础事实的盒子以消除具有大于给定阈值Ωnms的重叠的所有其他盒子。为了确定分类分数，当方框i消除方框j时，我们通过s i = max（s i，s j）更新方框i的分类置信度s i。此过程也可以解释为置信聚类：对于匹配相同基础事实的一组边界框，我们对类标签采取最自信的预测。可以在算法1中找到该算法的伪代码。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

算法 1：IoU 引导式 NMS。在这个算法中，分类置信度和定位置信度是解开的（disentangled）。研究者使用定位置信度（预测得到的 IoU）来给所有被检测到的边界框排名，然后基于一个类似聚类的规则来更新分类置信度。

IoU引导的NMS解决了分类置信度和定位精度之间的错位。定量结果表明，我们的方法优于传统的NMS和其他变体，如Soft-NMS [2]。使用IoU引导的NMS作为后处理器进一步推动了几种最先进的物体探测器的性能。

3.3 将边界框修正当作是一个优化过程

边界框细化问题可以在数学上表达为找到最优c * s.t.：

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

其中box det是检测到的边界框，box gt是（目标）地面实况边界框，变换是一个边界框变换函数，以c为参数并变换给定的边界框。暴击是衡量两个边界框之间距离的标准。在最初的快速R-CNN [5]框架中，暴击被选择为对数尺度中的平滑L1坐标距离，而在[32]中，暴击被选择为两个边界框之间的-ln（IoU）。
基于回归的算法使用前馈神经网络直接估计最优解c *。然而，迭代边界框回归方法易受输入分布变化的影响[3]，并可能导致非单调本地化改进，如图4所示。为解决这些问题，我们提出了一种基于优化的边界框细化方法利用IoU-Net作为稳健的定位精度（IoU）估计器。此外，IoU估计器可以用作早期停止条件，以使用自适应步骤实现迭代细化。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

IoU-Net直接估算IoU（box det，box gt）。虽然所提出的精确RoI池化层能够计算IoU的梯度w.r.t.边界框坐标§，我们可以直接使用梯度上升方法找到方程1的最优解。在算法2中，将IoU的估计视为优化目标，我们迭代地用计算的梯度细化边界框坐标并最大化检测到的边界框与其匹配的地面实况之间的IoU。此外，预测的IoU是每个边界框上的定位置信度的可解释指标，并有助于解释执行的转换。
在实现中，如算法2第6行所示，我们手动按比例放大渐变w.r.t.具有该轴上的边界框大小的坐标（例如，我们用宽度（b j）向上扩展∇x1）。这相当于在[5]中以对数缩放坐标（x / w，y / h，log w，log h）执行优化。我们还使用一步式边界框回归来初始化坐标。

精准 RoI 池化（Precise RoI Pooling）:

研究者引入了精准 RoI 池化（简写成：PrRoI 池化）来助力研究者的边界框修正。其没有任何坐标量化，而且在边界框坐标上有连续梯度。给定 RoI/PrRoI 池化前的特征图 F（比如，来自 ResNet-50 中的 Conv4），设 wi,j 是该特征图上一个离散位置 (i,j) 处的特征。使用双线性插值，这个离散的特征图可以被视为在任意连续坐标 (x,y) 处都是连续的：

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

其中，论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection 是插值系数。然后将 RoI 的一个 bin 表示为，其中 (x_1,y_1) 和 (x_2,y_2) 分别是左上角和右下角的连续坐标。给定 bin 和特征图 F，研究者通过计算一个二阶积分来执行池化（比如平均池化）：

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

为更便于理解，研究者在图 6 中可视化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化：在传统的 RoI 池化中，连续坐标首先需要被量化（quantization），以计算该 bin 中**的和；为了消除量化误差，在 RoI Align 中，会采样该 bin 中 N=4 个连续点，表示成 (a_i,b_i)，而池化就是在这些采样的点上执行的。RoI Align 中的 N 是预定义的，而且不能根据 bin 的大小进行调整；与此不同，研究者提出的 PrRoI 池化是直接基于连续特征图计算二阶积分。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

图 6：RoI 池化、RoI Align 和 PrRoI 池化的图示

为了更好地理解，我们在图6中可视化RoI Pooling，RoI Align [10]和我们的PrRoI Pooing：在传统的RoI Pooling中，需要首先量化连续坐标以计算bin中**的总和; 为了消除量化误差，在RoI Align中，在bin中对N = 4个连续点进行采样，表示为（a i，b i），并且在采样点上执行合并。与RoI Align相反，其中N是预定义的，而不是自适应的w.r.t. bin的大小，建议的PrRoI池直接计算基于连续特征映射的二阶积分。
此外，基于等式3中的公式，PrPool（Bin，F）是可微分的w.r.t. bin的坐标。例如，PrPool（B，F）的偏导数w.r.t. x 1可以计算为：

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

PrPool（bin，F）的偏导数w.r.t. 可以以相同的方式计算其他坐标。由于我们避免任何量化，PrPool是连续可微的。

3.4 联合训练

这种 IoU 预测器可集成到标准的 FPN 流程中，以进行端到端的训练和推理。为了清楚说明，研究者将用于图像特征提取的 CNN 架构称为骨干（backbone），将应用于各个 RoI 的模块称为头（head）。

如图 5 所示，这个 IoU-Net 使用了 ResNet-FPN [16] 作为骨干网络，其架构是自上而下的，可构建特征金字塔（feature pyramid）。FPN 能根据 RoI 的特征的比例从这个特征金字塔的不同层级提取这些 RoI 的特征。其中原来的 RoI 池化层被换成了精准 RoI 池化层。至于该网络的头，这个 IoU 预测器根据来自骨干网络的同一视觉特征而与 R-CNN 分支（包括分类和边界框回归）并行工作。

研究者根据在 ImageNet [25] 上预训练的 ResNet 模型初始化了权重。所有新的层都使用了标准差为 0.01 或 0.001 的零均值高斯分布进行初始化。研究者使用了平滑 L1 损失来训练 IoU 预测器。IoU 预测器的训练数据是在一个训练批中的图像中单独生成的，详见 3.1 节。IoU 标签进行了归一化，因此其值分布在 [-1,1]。

输入图像的大小进行了调节，短边长度为 800 像素，长边长度最大为 1200 像素。分类和回归分支取来自 RPN 的每张图像 512 RoI。研究者使用了 16 的批大小进行训练。网络为 16 万次迭代进行了优化，学习率设置为 0.01，并在 12 万次迭代后减小 10 倍。研究者还为前 1 万次迭代设置了 0.004 的学习率以进行预热。研究者使用了 1e-4 的权重衰减和 0.9 的 momentum.

在推理过程中，研究者首先对初始坐标应用边界框回归。为了加快推理速度，研究者首先在所有检测到的边界框上应用 IoU 引导式 NMS。然后，使用基于优化的算法进一步改进 100 个有最高分类置信度的边界框。研究者设置步长为 λ=0.5，早停阈值为 Ω1=0.001，定位衰减容限 Ω2=−0.01，迭代次数 T=5。

4 实验

研究者在有 80 个类别的 MS-COCO 检测数据集 [17] 上进行了实验。遵照 [1,16]，研究者在 8 万张训练图像和 3.5 万张验证图像的并集（trainval35k）上训练了模型，并在包含 5000 张验证图像的集合（minival）上评估了模型。为验证该方法，在 4.1 节和 4.2 节，研究者与目标检测器分开而训练了一个独立的 IoU-Net（没有 R-CNN 模块）。IoU-Net 助力的 IoU 引导式 NMS 和基于优化的边界框修正被应用在了检测结果上。

4.1 IoU 引导式 NMS

表 1 总结了不同 NMS 方法的表现。尽管 Soft-NMS 能保留更多边界框（其中没有真正的「抑制」），但 IoU 引导式 NMS 还能通过改善检测到的边界框的定位来提升结果。因此，在高 IoU 指标（比如 AP_90）上，IoU 引导式 NMS 显著优于基准方法。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

表 1：IoU 引导式 NMS 与其它 NMS 方法的比较。通过保留定位准确的边界框，IoU 引导式 NMS 在具有高匹配 IoU 阈值的 AP（比如 AP_90）上的表现显著更优。

我们通过分析不同NoU阈值下的召回来深入研究不同NMS算法的行为。原始检测到的边界框由ResNet50-FPN生成，没有任何NMS。随着定位精度要求的提高，IoU引导的NMS与其他方法之间的性能差距也越来越大。特别是，在传统NMS之后，匹配IoUΩ测试的召回率下降到18.7％，而IoU-NMS达到28.9％，No-NMS“上限”为39.7％。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

图 7：在匹配检测到的边界框与真实目标框的不同 IoU 阈值下，不同 NMS 方法的召回率曲线。研究者提供了 No-NMS（不抑制边界框）作为召回率曲线的上限。研究者提出的 IoU-NMS 有更高的召回率，并且在高 IoU 阈值（比如 0.8）下能有效收窄与上限的差距。

4.2 基于优化的边界框修正

研究者提出的基于优化的边界框修正与大多数基于 CNN 的目标检测器 [16,3,10] 都兼容，如表 2 所示。将这种边界框修正方法应用在原来的使用单独 IoU-Net 的流程之后还能通过更准确地定位目标而进一步提升表现。即使是对有三级边界框回归运算的 Cascade R-CNN，这种改进方法能进一步将 AP_90 提升 2.8%，将整体 AP 提升 0.8%。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

表 2：基于优化的边界框修正能进一步提升多种基于 CNN 的目标检测器的表现。

4.3 联合优化

IoU-Net 可与目标检测框架一起并行地端到端优化。研究者发现，将 IoU 预测器添加到网络中有助于网络学习更具判别性的特征，这能分别将 ResNet50-FPN 和 ResNet101-FPN 的整体 AP 提升 0.6% 和 0.4%。IoU 引导式 NMS 和边界框修正还能进一步提升表现。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP，相比而言基准为 38.5%，提升了 2.1%。表 4 给出了推理速度，表明 IoU-Net 可在计算成本承受范围之内实现检测水平的提升。

我们主要将表3中AP 50的劣质结果归因于IoU估计误差。当边界框具有较低的具有地面实况的IoU时，它们在外观上具有较大的变化。在图2（b）中可视化，对于具有较低IoU的盒子，IoU估计变得不太准确。这降低了下游细化和抑制的性能。我们凭经验发现，这个问题可以通过诸如在训练期间以较低的IoU采样更多边界框的技术来部分地解决。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

表 3：在 MS-COCO 上的最终实验结果。IoU-Net 表示嵌入 IoU 预测器的 ResNet-FPN。在这个 FPN 基准上，研究者实现了约 2% 的 AP 提升。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

表 4：多种目标检测器在单个 TITAN X GPU 上得到的推理速度。这些模型都有一样的骨干网络 ResNet50-FPN。输入分辨率为 1200x800。所有超参数设置相同。

5 总结

本文提出一种用于准确目标定位的全新网络架构 IoU-Net。通过学习预测与对应真实目标的 IoU，IoU-Net 可检测到的边界框的「定位置信度」，实现一种 IoU 引导式 NMS 流程，从而防止定位更准确的边界框被抑制。IoU-Net 很直观，可轻松集成到多种不同的检测模型中，大幅提升定位准确度。MS-COCO 实验结果表明了该方法的有效性和实际应用潜力。

从学术研究的角度，本文指出现代检测流程中存在分类置信度和定位置信度不匹配的问题。更进一步，研究者将边界框修正问题重定义为一个全新的优化问题，并提出优于基于回归方法的解决方案。研究者希望这些新视角可以启迪未来的目标检测工作。

论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

1 引言

2 深入目标定位

3 IoU-Net

4 实验

5 总结

相关推荐