【论文速览】PointPainting: Sequential Fusion for 3D Object Detection

摘要

摄像头和激光雷达是通常是机器人技术,特别是自动驾驶汽车的重要传感器形式。传感器提供补充信息,为紧密的传感器融合提供了机会。令人惊讶的是,仅使用激光雷达的方法在主要基准数据集上的性能优于融合方法,这表明文献中存在空白。在这项工作中,提出了PointPainting:一种填补这一空白的顺序融合方法。PointPainting将激光雷达点投影到仅图像的语义分割网络的输出中并将类分数附加到每个点。然后可以将附加的(painted)点云馈送到任何仅激光雷达的方法。实验显示,在KITTI和nuScenes数据集上,对三种不同的最新方法Point-RCNN,VoxelNet和PointPillars进行了重大改进。 PointRCNN的“painted”版本代表了KITTI排行榜上用于鸟瞰检测任务的最新技术水平。在消融实验中,研究“Painting”的效果如何取决于语义分割输出的质量和格式,并演示如何通过流水线将等待时间最小化。

主要贡献:

在这项工作中,提出了PointPainting:一种简单而有效的顺序融合方法。 将每个激光雷达点投影到图像语义分割网络的输出中,并将通道方向的**与每个激光雷达点的强度测量连接起来。然后,级联(painted)的激光雷达点可用于任何激光雷达检测方法,无论是鸟瞰图还是正视图。PointPainting解决了以前融合概念的缺点:它不对3D检测架构增加任何限制;它不会遭受特征或深度模糊的困扰;它不需要计算伪点云,也没有限制最大召回率。需要注意的是,对于直接在原始点云上运行的激光雷达检测方法,PointPainting需要最少的网络适应性,例如更改专用于读取点云的通道数。对于使用手动编码特征的方法,需要一些额外的工作来修改特征编码器。

PointPainting在设计上是顺序的,这意味着并非总是可以端到端地针对3D检测的最终任务进行优化。从理论上讲,这暗示着性能上的次优。但是从经验上讲,PointPainting比所有其他融合方法更有效。此外,顺序方法还具有其他优点:(1)图像的语义分割通常是有用的独立中间结果,并且(2)在实时3D检测系统中,可以通过对图像和激光雷达进行流水线处理来减少等待时间网络,使激光雷达点用上一张图片的语义修饰。消融实验表明,这种流水线操作不会影响性能。

使用三种具有公共代码的仅使用激光雷达的先进方法来实现PointPainting:PointPillars,VoxelNet(SECOND)和PointRCNN。Point-Painting可以改善结果,实际上,Point-Painting版的PointRCNN在KITTI排行榜上达到了最先进的水平。在NuScenes上Painted PointPillars有显着改善,mAP提升了6.3。

本文的主要贡献是:
主要贡献是一种新颖的融合方法PointPainting,它通过图像语义增强了点云。 通过广泛的实验,证明PointPainting是:
通用–与KITTI和nuScenes基准测试中的3种仅使用激光雷达的*方法一起使用时,实现了重大改进;
准确– PointRCNN的painted版本在KITTI基准上达到了最先进的水平;
强大– PointRCNN和PointPillars的painted版本分别改善了KITTI和nuScenes测试集上所有类的性能。
快速-通过流水化图像和激光雷达处理步骤可以实现低延迟融合。

算法框架

PointPainting体系结构接受点云和图像作为输入,并估计3D的边界框。 它包括三个主要阶段(图2)。 (1)语义分割:基于图像的sem. seg.网络计算像素细分分数。 (2)融合:基于sem. seg.网络得到的分数,激光雷达点被喷涂。 (3)3D目标检测:基于激光雷达的3D检测网络。
【论文速览】PointPainting: Sequential Fusion for 3D Object Detection
1、基于图像的语义网络
图像sem. seg.网络接收输入图像并输出每个像素类别的分数。这些分数可作为图像的紧凑特征。在融合中使用sem. seg.网络有几个主要优点:首先,sem. seg.网络与3D目标检测相比,这是一项更轻松的任务,因为分割仅需要按像素进行局部分类,而目标检测则需要3D定位和分类。执行sem. seg.的网络更容易训练,也可以快速推断。第二,sem. seg.的技术迅速发展,这使PointPainting可以受益于分割和3D目标检测的进步。最后,在机器人技术或自动驾驶汽车系统中,sem. seg.输出是用于诸如*空间估计之类的任务的有用的独立输出。作者在KITTI实验的分割得分是从DeepLabv3中得出的,而对于nuScenes实验,则训练了一个自定义,更轻巧的网络。但是,注意到PointPainting与图像分割网络设计无关。
2、PointPainting
【论文速览】PointPainting: Sequential Fusion for 3D Object Detection
对于KITTI和nuScenes,激光雷达点云中的每个点分别是(x,y,z,r)或(x,y,z,r,t),其中x,y,z是每个激光雷达点的空间位置, r是反射率,t是激光雷达点的相对时间戳(适用于使用多次激光雷达扫描的情况)。激光雷达点通过均匀变换进行变换,然后投影到图像中。对于KITTI,此转换由Tcamera<-lidar提供。nuScenes的转换更复杂一些,因为激光雷达和摄像头的工作频率不同。完整的转换是:
【论文速览】PointPainting: Sequential Fusion for 3D Object Detection
将lidar帧转换为ego-vehicle帧;激光雷达捕获时的ego帧t1到图像捕获时tc的ego帧;和ego帧到相机帧。最后,相机矩阵M将点投影到图像中。

细分网络的输出为C类评分,其中KITTI C = 4(汽车,行人,自行车,背景),nuScenes C = 11(10个检测类别加上背景)。一旦将激光雷达点投影到图像中,相关像素的分割分数(h,w)就会附加到激光雷达点上,以创建painted的激光雷达点。请注意,如果两个摄像机的视场重叠,则会有一些点同时投射在两个图像上,因此从两个图像之一中随机选择分割分数矢量。另一种策略可以是通过比较它们的熵或前两个得分之间的余量来选择更具区别性的得分向量。这些留待研究。
3、激光雷达检测
PointPainting只是更改了激光雷达点的输入尺寸,因此可用任何激光雷达网络处理。带有人工设计的编码器的激光雷达网络也可以使用PointPainting,但是每种方法都需要专门的特征设计。在本文中,演示了PointPainting与三种不同的激光雷达检测器一起使用:PointPillars,VoxelNet和PointRCNN。这些都是具有不同网络架构的最先进的激光雷达检测器:单级(PointPillars,VoxelNet)与两级(PointRCNN),支柱(PointPillars)与体素(VoxelNet)与点(PointRCNN)。 尽管有这些不同的设计选择,所有激光雷达网络都可以从PointPainting中受益(表1)。请注意,在此选择中尽可能地包容,这些代表了所有具有公共代码的*KITTI检测排行榜方法。
【论文速览】PointPainting: Sequential Fusion for 3D Object Detection

主要结果

1 KITTI
所有检测结果均使用官方的KITTI鸟瞰(BEV)和3D评估检测来测量。BEV结果在此处显示,而3D结果包含在补充材料中。KITTI数据集分为容易,中度和困难难度,并且官方KITTI排行榜按中等平均精度(AP)的性能进行排名。
【论文速览】PointPainting: Sequential Fusion for 3D Object Detection
验证集 首先,研究PointPainting对三个领先的激光雷达检测器的影响。图1和表1证明PointPainting改善了PointPillars,VoxelNet和PointRCNN的检测性能。PointPainting语义信息导致检测方面的广泛改进:PointPainting改进了27个比较中的24个(3个实验3类3层)。尽管最大的变化是针对更具挑战性的行人和骑车者检测场景,但大多数网络都对汽车进行了改进。这表明PointPainting的实用程序独立于基础激光雷达网络。

测试集 将PointPainting与最新的KITTI测试结果进行比较。KITTI排行榜仅允许每篇论文提交一次,因此无法提交表1中的所有Painted方法。尽管在val集合上Painted PointPillars的表现优于Painted PointRCNN,但只有PointPillars具有nuScenes的公共代码。因此,为了建立PointPainting的通用性,选择将Painted PointPillars结果提交给nuScenes测试,并将Painted PointRCNN在KITTI提交。

如表2所示,PointPainting大大改进了PointRCNN的测试集:平均精度在所有阶层中的每个单一类都增加了。 Painted PointRCNN在mAP和自行车AP上建立了新的最好水平。
【论文速览】PointPainting: Sequential Fusion for 3D Object Detection
根据val和test之间的Painted PointRCNN改进的一致性(分别为+2.73和+2.94)以及PointPainting的一般性(表1),有理由相信,表2中的其他方法将随着PointPainting提升。PointPainting的强度,通用性,鲁棒性和灵活性表明,它是图像-激光雷达融合的领先方法。
2、 nuScenes
为了验证PointPainting的多功能性,在nuScenes上检查了Painted PointPillars结果。 第一步,将激光雷达网络基线增强到PointPillars+。即使有了这个更强的基线,PointPainting也可以将测试集的mAP提高6.3(表4)。在nuScenes上,仅由MEGVII的仅限激光雷达方法击败Painted PointPillars+。但是,MEGVII的网络对于实时系统来说是不切实际的,因为它是一个非常大的两级网络,需要高分辨率输入,并使用多尺度输入和集合进行测试评估。因此,Painted PointPillars+是nuScenes上领先的实时方法。
【论文速览】PointPainting: Sequential Fusion for 3D Object Detection
各个类别的检测性能普遍良好,每个类别的Point-Painting都提高了AP(表3)。通常,在PointPillars+中性能最差的检测类从painting中受益最大,但也有例外。首先,尽管已经具有强大的PointPillars+检测功能,交通锥的AP增长最多(+16.8)。这很可能是因为交通锥通常只有很少的激光雷达点,因此语义分段提供的附加信息非常有价值。其次,尽管从较小的基线开始,拖车和工程车辆的检测增益较低。这是由于细分网络在这些类别上的召回率最差(总体召回率为72%,但挂车的召回率仅为39%,工程车辆的召回率仅为40%。最终,尽管基线为76 AP,但汽车仍获得+1.9 AP提升,即使对于仅由激光雷达很好地检测到的类,也能传达语义信息的价值。
【论文速览】PointPainting: Sequential Fusion for 3D Object Detection

Abstract

Camera and lidar are important sensor modalities for robotics in general and self-driving cars in particular. The sensors provide complementary information offering an opportunity for tight sensor fusion. Surprisingly, lidar-only methods outperform fusion methods on the main benchmark datasets, suggesting a gap in the literature. In this work, we propose PointPainting: a sequential fusion method to fill this gap. PointPainting works by projecting lidar points into the output of an image-only semantic segmentation network and appending the class scores to each point. The appended (painted) point cloud can then be fed to any lidaronly method. Experiments show large improvements on three different state-of-the-art methods, Point-RCNN, VoxelNet and PointPillars on the KITTI and nuScenes datasets. The painted version of PointRCNN represents a new state of the art on the KITTI leaderboard for the bird’s-eye view detection task. In ablation, we study how the effects of Painting depends on the quality and format of the semantic segmentation output, and demonstrate how latency can be minimized through pipelining.