先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合

先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合


Radar and Camera Early Fusion for Vehicle Detection in Advanced Driver Assistance Systems 的翻译

摘要

感知模块是现代高级驾驶员辅助系统(ADAS)的核心。为了提高该模块的质量和鲁棒性,特别是在光照和天气条件变化等环境噪声存在的情况下,传感器(主要是相机和激光雷达)的融合是近年来研究的重点。在这篇论文中,我们关注一个相对未开发的领域,即相机和雷达传感器的早期融合。为了提高感知模块的准确性和鲁棒性,我们将经过最小处理的雷达信号与相应的摄像机框架一起提供给我们的深度学习架构。我们对真实世界数据的评估表明,雷达和摄像机信号的互补性可以在应用于目标检测时减少15%的横向误差。

1 Introduction

在过去的几年里,自动驾驶和自动驾驶已经成为深度学习领域研究的主要力量之一。目标检测是这些系统鲁棒感知系统设计中的一个关键问题。相机本身已经成为构建感知模块的主要传感器。近年来,为了提高对一系列操作条件的鲁棒性,人们越来越重视使传感器的种类多样化。各种各样的传感器,如激光雷达、近程雷达、远程雷达、红外摄像机和sonars都被用来提高感知模块输出的质量。
在我们的工作中,我们专注于相机和雷达传感器的融合。雷达提供了一个低成本的替代激光雷达作为距离确定传感器。由于其基本设计的性质,目前典型的汽车雷达要比激光雷达便宜得多。除了成本之外,雷达还能适应不同的照明和天气条件(如雨和雾),并能提供瞬时速度测量,这为改进系统反应时间提供了机会。
车辆上有多个传感器,传感器融合可以提高目标检测的准确性,尤其是在相对嘈杂环境下的鲁棒性,因此对于ADAS系统来说,传感器融合是一个很自然的发展方向。传统上,采用扩展卡尔曼滤波器(EKF)[8]等方法来结合不同感知模块的检测。最近,深度学习也被用于相机和激光雷达的传感器融合[3,15,5,13,17]。
不同传感器之间的数据融合可以在后期进行,例如,相机和激光雷达/雷达分别对物体/车辆进行检测,后期将检测到的物体属性(如物体边界盒)进行合并。典型地,这种融合技术比早期的融合方法复杂度要低,在早期的融合方法中,来自多个模态的传感器测量数据被联合处理以生成对象属性。传统上,早期融合允许低水平的特征融合,从而提高了检测精度。例如,在早期融合的情况下,一个传感器可以检测到车辆的侧镜,而前保险杠可能被另一个传感器检测到。早期融合和晚期融合之间的权衡最近被研究人员所研究[12,27]。

雷达数据,在自动驾驶和ADAS的背景下,已被用来提高传感器融合和/或感知模块的准确性。然而,通常使用CFAR算法处理雷达数据,将原始数据转换为点云,从而将感兴趣的目标与周围的杂波区分开。将原始的4D雷达张量(由稠密的2D欧几里德空间、多普勒和时间组成)转换成稀疏的2D点云,可以去除信号中大量的信息。相反,我们依赖原始雷达数据来最小化信号后处理所引入的人工制品,同时最小化雷达输出的抽象。

在本文中,我们做出了以下贡献:

  1. 提出了一种利用雷达数据进行探测和分类的新方法 一种新的深度学习结构,允许融合雷达信号和相机图像,共同产生物体边界盒。
  2. 一个基础设施和方法,以发展和评估我们的传感器融合系统的性能对现实世界的数据。
  3. 论文的其余部分组织如下。在第二部分,我们将讨论相关的工作。第3节介绍了我们的相机和雷达传感器融合的解决方案。第4节重点介绍了用于我们的评估的培训设置和数据集。第五部分讨论了我们的实验研究和相应的结果。最后,第6节给出了我们的结论。

2 Related Work

图像目标检测
图像分类和目标检测一直是计算机视觉领域的两大难题。近年来,图像分类任务的性能有了突破性的进展。基于深度的神经网络已经成为应对这些挑战的实际解决方案。目标检测建立在图像分类的基础上,解决了另外两个问题——给定图像中的目标列表和目标在图像中的位置。在这一领域主要有两类正在开发的解决方案:单级和两级探测器。单级检波器,如单次发射多盒检波器(Single-Shot Multibox Detector, SSD)[16]或YOLO[20],主要关注每帧的推理时间。由于速度是最重要的,所以这些网络内部依赖于一个单一的通道来识别先前的机器。另一方面,两级探测器通常速度较慢,但可以获得更好的精度结果。例如RCNN[7]、Fast-RCNN[6]、Fast-RCNN[22]、R-FCN[4]和Mask-RCNN[9]等网络。这些网络依赖于区域建议网络(RPN)来识别感兴趣的区域(RoI), RoI随后被传递到执行最终分类和boxcoordinate调整的第二阶段。
自动驾驶雷达深度学习
由于雷达的独特性,在这方面缺乏文献和数据集是可以理解的。此外,传统的雷达文献通常将“检测”称为返回空间点的任务,而在计算机视觉社区中,“检测”是将区域作为对象对象返回的任务。在自动驾驶的背景下,已发表的方法[24][19]利用了来自商用汽车雷达系统的稀疏点云。在这些商用雷达系统中,这些点是用恒虚警率(CFAR)[23]算法对原始雷达信号进行处理而产生的。这种方法的缺点是雷达回波的背景信息丢失,只有距离、方位和多普勒信息被保留了。这限制了对雷达信号进行更高级别分类的能力。除了自主驾驶外,微多普勒[25][2]还应用了深度神经网络进行活动分类,但是这些方法并没有解决空间定位的问题。
先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合
使用深度学习的传感器融合
在最近的工作中,一些作者关注于相机和激光雷达的融合,这是不同于我们的目标。此外,汽车雷达系统返回的点云的稀疏性(通常≤64点)限制了使用雷达点云的激光雷达方法。多视图三维(MV3D)[3]应用特征提取分别对3帧:激光雷达鸟瞰图,激光雷达前视图,和相机前视图。然后,激光雷达鸟瞰图的特点是用来产生三维包围框的建议,以指导最后融合的其他两帧。在[15]中,作者依靠激光雷达和摄像机来提高目标检测的精度。激光雷达的鸟瞰图是用来作为融合的相机功能在多个决议与激光雷达的特点。连续融合层考虑了摄像机帧中发生的遮挡,使融合在整个网络中成为可能。PointFusion[26]使用了一个早期的工作(即。, PointNet[18])直接处理激光雷达点云,而不需要将其映射到2D平面。使用3D锚盒进行融合增加了复杂性,同时使架构更加一般化。

3 FusionNet

我们提出了FusionNet(图1),我们提出的架构融合了来自多个传感器的特征映射来进行对象检测。我们的网络设计受到了SSD[16]的启发,通过它,一个特征提取器网络可以生成多尺度的特征图,然后是检测头。然而,我们的网络并没有使用单一的特征提取网络来提取摄像机图像,而是将来自不同来源的观测同一物理场景的输入组合在一起。FusionNet的目标是从观察同一空间的不同传感器中提取和组合特征,这些特征可能来自不同的角度,并且它们的相对位置已知。每个特征提取分支合并一个空间转换,以便每个分支的输出特征映射在空间上与其他分支对齐。
高级体系结构
我们在FusionNet中实现了两个分支,即处理来自雷达的距离-方位图像的雷达分支和处理由前置相机捕获的图像的相机分支。在独立的特征提取器分支之后,这些特征被传递到融合层。为了确保网络从不同的信号源学习有意义的表示,我们采用了一种独特的训练策略:部分冻结网络并进行微调。
先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合
雷达分支
与其他利用汽车雷达的文献相比,我们的网络的输入不是点云。相反,我们的雷达分支采用密集的2D距离-方位“图像”,允许我们使用图像对象检测网络中流行的特征金字塔网络结构。由于目标是预测笛卡尔坐标中的边界框,所以在中间特征图中添加了一个映射层(如图2所示)。根据经验,我们发现将空间转换放在中间特征层的早期效果最好。在这个转换之后,在与其他分支连接之前添加了更多的卷积层。
相机分支
为了将摄像机图像转换成笛卡尔空间,我们设计了一种逆投影映射,即摄像机图像的单应性变换。为了计算这个投影映射,我们首先假设摄像机正在成像一个平面场景(即雷达平面,它与道路平面近似平行)。然后,利用本征和非本征标定信息,将笛卡尔雷达平面上的一组点投影到图像坐标上。然后使用标准的4点算法可以找到一个平面单应性变换。在无法进行校准的情况下,也可以手动分配多个联络点,最终使用最小二乘法求解最佳单应性。
摄像机分支的结构与雷达分支非常相似。然而,我们并没有在特征图中进行坐标变换,而是根据经验发现,当这种变换直接应用于相机图像而不是特征图时,网络的表现最好。经单应性变换后,输入到网络的图像为3通道256×256彩色图像。如果平面假设是正确的,并且相机相对于雷达不移动,那么图像坐标现在应该与笛卡尔坐标相匹配。
融合层
独立特征提取器分支的输出仅依赖于单个传感器的数据。为了使网络能够使用来自多个传感器的输入进行预测,我们使用了额外的融合层来结合两个分支的特征。我们设计了这两个分支,使它们的输出特征映射的分辨率匹配。因此,我们可以简单地将这些来自radar分支和camera分支的输出特征连接起来,形成一个两倍于通道数量的unifiedfeature map。接下来,我们在训练中应用了一个 p= 0.5的dropout来引导网络结合来自两个分支的部分特性。最后,我们应用1×1的卷积将信道数减少到原来的单个传感器的信道数。
检测输出
对于目标检测,我们将SSD头应用到融合特征图上。我们选择锚盒来匹配训练集中的地面真值盒分布。我们使用k-means聚类(类似于[20,21])来构建一组更适合我们的车辆检测网络的锚盒。应该清楚的是,由于我们主要关注的是车辆,只有少数几种类型的车辆通常在路上(例如,中型轿车,卡车)。特别是,考虑到美国交通部对车道宽度的限制,这些车辆的宽度变化很小。
基于平面假设的强度
平面道路似乎是一个非常强的假设,但事实并非如此。美国州际公路的最高等级为6%[1];考虑立即从0%等级转换到6%等级,导致我们雷达的最大射程误差为0.08m,低于我们雷达系统的距离分辨率(第4.1节)。此外,道路等级是逐渐变化的,在大多数道路上,我们不应该看到明显和持续的等级变化。另一方面,更大的误差来源是不可避免的机械振动。我们不能期望任何传感器的安装在一个移动的平台上是完全刚性的。对于相机,这个错误表现为一个摆动的变换图像,最明显的是在顶部的变换图像。对于雷达,这将转化为采取一个倾斜的场景切片。没有进行显式处理或数据清理来排除这些扭曲,我们期望网络学会如何在融合过程中处理这些错误。
先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合