论文翻译:A Mask-RCNN Baseline for Probabilistic Object Detection

A CVPR 2019 Workshop – Long Beach, 17 June 2019

论文链接

Contributed Talk (2nd place): A Mask-RCNN Baseline for Probabilistic Object Detection. Phil Ammirato, Alexander C. Berg.

搜狗翻译+人工校准
时间仓促,比较粗糙,欢迎指出不足。

Abstract

The Probabilistic Object Detection Chllenge在一个合成的图像数据集进行目标检测时,使用了一种新方法PDQ。

我们提出了微调版的Mask-RCNN和额外的附加处理,得分21.432,排名第二,这也是最高的spatial quality 和 average overall quality。

我们希望这种方法能对如何设计探测器在PDQ行为下mAP评估进攻一些见解,并为今后的工作提供一个strong baseline。

1.Introduction

目标检测是计算机视觉研究界非常流行的任务,也是许多现实世界应用程序的有用工具。许多这样的应用都是在机器人领域。如果机器人能够获得周围目标的信息,那么它将能够更好地与环境进行成功的互动。

传统上,目标检测方法是为Mean Average Precision(mAP)度量设计和评估的。这个度量对于评估各种任务的检测方法是非常有用的,但是对于robotics contexts来说可能并不理想。Map根据每个盒子的得分对测试系统输出的包围盒进行排序。分数的原始值很难解释,除了更高的分数意味着系统更有信心。排序系统通常鼓励检测器为每个图像输出许多数据,因为这通常只会增加它的mAP得分。对于robotics contexts来说,这样大的输出可能并不理想,因为处理资源可能是有限的,并且缺乏可靠/一致的信任度度量。

近年来,PDQ将分数视为真实的概率,而不是排名机制的方法。它还允许在目标位置建模一些不确定性,表示为一个pbox。每个盒子的每个角都有一个协方差矩阵,描述了盒子形状的不确定性。这给出了一个更加逼真的表现,传统的包围盒,这在判断什么是目标,什么不是目标非常严格。

这项工作的目标是使用现有的Mask-RCNN为概率目标检测建立一个强有力的基线。我们首先对一个训练用于 mAP目标检测的Mask-RCNN模型进行微调,以便对PODC数据进行检测。然后,我们对探测器输出开发一些后处理程序,以更好地适应PDQ评估,而不是mAP。我们测试了我们的工作,作为可能性目标探测挑战(PODC)的一部分,在CVPR2019并获得了第二名。

2.Mask-RCNN

Mask-RCNN是一种非常流行的目标检测和实例分割深度学习方法,它可以已发布的MSCOCO数据集上获得state-of-the art的结果。虽然一些探测器在mAP性能上已经超过了Mask-RCNN,但它们仅仅超过了几个点,而且通常基于Mask-RCNN结构。

Mask-RCNN是一个两阶段的识别pipeline。在它的第一阶段,使用CNN从图像中提取features,并预测类不可知区域。然后在第二阶段对这些proposals进行细化和分类,在第二阶段,为实例分割任务提供标记的边界框或者分割掩码,用于目标检测分割任务。

基于Pytorch实现,可以在github repository查看源码来完成PODC challenge。

3.Training for PODC data

我们用带有Feature Pyramid Network的ResNet101构建模型,在MSCOCO的80个目标类上对目标检测和实例分割进行了训练。
该模型在80个MSCOCO类上实现了42.2mAP。

第一步是移除所有的mask prediction heads 和 object detection classifier heads,这些heads用于MSCOCO中不包含在PODC中的50个类。这给我们留下了一个用于30个类的目标检测器,这些类被设计和训练来最大化MSCOCO上的mAP,我们将这称为Mask-RCNN-30。

训练集数据缺乏的一个挑战是领域转移。通常系统的目标是从合成图像转换到真实世界的图像,但在这项任务中,测试数据是合成的,尽管我们有一些真实的训练数据可用。

PODC validation和testing数据是通过高保真模拟生成的,因此这些图像可能来自于不同于MSCOCO收集的真实世界图像的领域。为了看看我们的初始模型能够多好地推广到这个新领域,我们在PODC validation的一个场景上测试Mask-RCNN-30,这个场景称为PODC-val0。如表1所示,与其在MSCOCO上的性能相比,仅在MSCOCO上训练的模型在PODC-val0上表现不佳。

由于没有与PODC相关的训练数据,因此我们寻找另一个合成数据来源,以帮助Mask-RCNN-30更好地进行泛化。

使用AI2-Thor,另一个合成render建造模拟机器人运动围绕室内家庭风格的场景。不幸的是,AI2-Thor的目标类集合并没有完全覆盖PODC的目标集合,只有9个PODC类被标记。事实上,在AI2-Thor的图像中存在目标类,比如oven,但是没有标记。这些ground truth数据中的FN类可能会在训练中造成混乱。

然而SunCG数据集与PODC的标记类有更多的重叠,覆盖了30个类中的25个。House3D使用3D场景模型和注释提供类似于AI2-Thor的环境。我们使用来自公开的House3D代码的工具来生成一个包含173,250个图像的训练集,并带有边界框注释,我们称之为House3D-train。

虽然SunCG数据是合成的,但它远不如PODC validation和testing数据真实。我们微调了Mask-RCNN-30在原来的MSCOCO图像和新的house-3D训练集,在随机域方面的一个薄弱的尝试。

希望这个模型能够适应不同的图像来源,不管是真实的还是合成的。我们可以在表1中看到,这确实有助于PODC-val0在mAP方面的性能。

在训练过程中增加了一个data augmentation,即通过Pytorch transforms调整图像亮度和对比度。这种增强有两个预期的效果:进一步提高模型对不同图像源域的泛化能力,以及提高PODC中夜景的性能。我们可以在表1中看到mAP的另一个小改进。

在表1中,我们可以看到随着mAP的改进,PDQ分数实际上下降了。这主要是由于假阳性的增加,我们将在下一节给出一些启发式的补救方法。

论文翻译:A Mask-RCNN Baseline for Probabilistic Object Detection

4. Post Processing for PODC evaluation

PDQ有两个重要的子测度:空间质量(QS)和标签质量(QL)
计算公式见论文, 还不太明白做了些什么事情。

4.1. PDC Calculation

论文翻译:A Mask-RCNN Baseline for Probabilistic Object Detection
论文翻译:A Mask-RCNN Baseline for Probabilistic Object Detection

4.2. False Negatives

当使用PDQ评估原始Mask-RCNN输出时,可能最大的误差来源是大量的FN。简单的解决方案是去除所有分数小于0.5的检测。我们尝试改变这个分数阈值,但是0.5的表现一直是最好的.
论文翻译:A Mask-RCNN Baseline for Probabilistic Object Detection

4.3 Label Quality

标签质量只计算TP检测。给FP检测分配高分的唯一惩罚来自spatial quality measure。我们发现,在最终的PDQ评分中,标签质量的权重较大,以及检测评分以外的其他因素对空间质量的影响,给所有检测评分重新赋值1.0,结果得到最高的PDQ。这似乎不符合PDQ的精神,因为现在的分数甚至比最初的检测器输出更没有意义,而PDQ似乎鼓励一个有意义的uncertainty measure。我们希望,随着baseline的建立,未来的工作将不得不找到一些更好的代表性的检测来提高分数。

4.4 Confusing Objects

虽然消除所有的低得分检测是一个简单而有效的解决方案,减少FP性,它也消除了大量的FP。我们添加了另一个简单的启发式添加回在某些低得分检测,具有高交叉超联(IOU)与其他低得分检测箱。本质上,我们在这里尝试添加可能是感兴趣对象的检测,因为检测器至少有两个对象输出,但对检测器具有模糊的类。
从方程式3可以看出,而N0增加一个真正的阳性检测比增加一个假阳性更能提高分数。所以增加两个检测值,即使其中一个几乎可以保证是假阳性,也是值得的,只要其中一个是真正的阳性。这种方法提高性能的幅度很小,可能不值得进行昂贵的计算。

论文翻译:A Mask-RCNN Baseline for Probabilistic Object Detection
论文翻译:A Mask-RCNN Baseline for Probabilistic Object Detection

4.5. Probabilistic Bounding Box

我们发现在我们的包围盒中添加一些固定的协方差矩阵比什么都不做稍微好一些,但是根据盒子大小缩放协方差更好。在尝试各种值之后,添加一个20-30%的包围盒大小之间的协方差是最好的。

4.6. Reducing Box Size

通过对真实背景中的像素进行高概率分配,可以大大降低spatial quality measure。因为我们所有的检测得分都是1.0,所以我们的总体PDQ会受到很大的影响。我们将所有探测器的边框尺寸在宽度和高度上分别减小了10%。这样我们就得到了一个以每个对象为中心的小盒子,并且这个盒子的信任度很高,而且我们的大协方差值允许我们在没有给背景赋予如此高的概率的情况下捕获其余的前景像素。

5. Final Model Details

对于我们的最终模型,我们在MSCOCO+SunCG+jitter训练集上微调Mask-RCNN-30,为10,000个iterations,bs = 8 ,lr = 0.0005。
我们添加PODC validation作5000次微调。我们后处理的阈值分数为0.5的检测,然后设置所有的分数为1.0。然后我们按照第4.4节的方式在框中添加回来。最后,我们减少了10%的包围盒,并增加了一个协方差基于30%的框的宽度和高度。

6.Conclusion and Future Work

最终得分为21.432,我们认为在未来的工作中还有很大的改进空间,尽管训练数据的缺乏是一个限制因素。这项工作的大多数改进是基于简单的启发式利用结构的PDQ计算的优势。我们希望未来的工作可以利用这一点来改进,并提供更有意义的不确定性预测。