由于本片论文不涉及技术，所以就翻译一下，看看公司的人是怎么理解DNN在自动驾驶中的应用的。

文章目录

A survey of deep learning techniques for autonomous driving

0、Abstract
1、Introduction
2、在自驾车中使用基于深度学习的决策架构
3、深度学习技术概述

3.1、CNN
3.2、RNN
3.3、DRL

4、深入学习环境感知和定位

4.1、传感硬件：相机与激光雷达的辩论
4.2、驾驶场景理解

4.2.1、边界盒状物体检测器
4.2.2、语义和实例分割
4.2.3、定位

4.3、使用occupancy maps的感知

5、深度学习的路径规划和行为仲裁
6、基于运动控制器的自动驾驶汽车

A survey of deep learning techniques for autonomous driving

0、Abstract

过去十年见证了自动驾驶汽车技术的日新月异的发展，这主要得益于深度学习和人工智能（AI）领域的进步。本文的目的是调查自动驾驶中使用的最新深度学习技术。我们首先介绍基于AI的自动驾驶架构，卷积和递归神经网络，以及深度强化学习范例。这些方法为所调查的驾驶场景感知，路径规划，行为仲裁和运动控制算法奠定了基础。我们研究了使用深度学习方法构建的每个模块的模块化感知计划行动管道以及将传感信息直接映射到转向命令的End2End系统，此外，我们还解决了在设计用于自动驾驶的AI架构时遇到的挑战，例如其安全性，训练数据和计算硬件。本次调查中进行的比较有助于深入了解深度学习和自动驾驶AI方法的优势和局限性，并协助设计选择。

1、Introduction

在过去的十年中，深度学习和人工智慧（AI）成为计算机视觉（Krizhevsky，Sutskever和＆Hinton，2012），机器人技术（Andrychowicz等人，2018）和自然语言取得许多突破的主要技术。处理（NLP; Goldberg，2017）。它们也对当今在学术界和工业界看到的自动驾驶革命产生了重大影响。无人驾驶汽车（AVs）和自动驾驶汽车开始从实验室开发和测试条件迁移到在公共道路上驾驶。将它们部署在我们的环境景观中，可以减少交通事故和交通拥堵，并改善我们在拥挤的城市中的出行能力。“自动驾驶”的标题似乎是不言而喻的，但实际上用于定义自动驾驶的汽车软件（SAE）级别有五个安全性。SAE J3016标准（SAE委员会，2014年）引入了从0到5的等级来对车辆自动化进行评级。较低的SAE等级具有基本的驾驶员辅助功能，而较高的SAE等级则朝着不需要任何人机交互的车辆发展。5级类别的汽车不需要人工输入，通常甚至都没有方向盘或脚踏板。

尽管大多数驾驶场景可以通过经典的感知，路径规划和运动控制方法来相对简单地解决，但其余未解决的场景是传统方法失败的极端情况。

恩斯特·迪克曼斯（Dickmanns＆Graefe，1988）在1980年代开发了第一批自动驾驶汽车。这为例如PROMETHEUS，旨在开发功能齐全的自动驾驶汽车的研究项目铺平了道路。1994年，无人驾驶和自动驾驶汽车（VaMP）成功行驶了1,600公里，其中95％是自动驾驶。同样，1995年，卡内基·梅隆导航实验室（CMU NAVLAB）演示了在6,000公里处自动驾驶的情况，其中98％是自动驾驶。自动驾驶的另一个重要里程碑是2004年和2005年美国国防高级研究计划局（DARPA）的大挑战，以及这是2007年DARPA城市挑战赛的目标。无人驾驶汽车的目标是在没有人工干预的情况下，尽可能快地在越野道路上行驶。2004年，这15辆车中没有一辆完成比赛。2005年比赛的冠军斯坦利（Stanley）利用MachineLearning技术在非结构化环境中导航。这是无人驾驶汽车开发的转折点，承认机器学习和人工智能是自动驾驶的核心组成部分。该转折点在本调查报告中也很明显，因为大部分被调查的工作都定于2005年之后。

在这项调查中，我们回顾了自动驾驶中使用的不同AI和深度学习技术，并提供了适用于自动驾驶汽车的最新深度学习和AI方法的调查。我们还将专门讨论安全方面的内容，培训数据源的挑战以及所需的计算硬件。

2、在自驾车中使用基于深度学习的决策架构

自动驾驶汽车是自主决策系统，可处理来自不同车载系统的观察流，例如相机，雷达，光检测和测距（LiDAR），超声传感器，全球定位系统（GPS）单位和/或惯性传感器。这些观察结果被汽车的计算机用来做出驾驶决策。图1显示了AI动力自动驾驶汽车的基本框图。驾驶决策可以通过模块化的感知计划行动管线（图1a）或End2End学习方式（图1b）进行计算，其中感官信息直接映射到控制输出。可以基于AI和深度学习方法或使用经典的非学习方法来设计模块化管道的组件。可以对基于学习和非学习的组件进行各种排列（例如，基于深度学习的对象检测器为经典的A-star路径规划算法提供输入）。安全监控器旨在确保每个模块的安全。

【论文阅读】A survey of deep learning techniques for autonomous driving
图1 基于深度学习的自动驾驶汽车。该体系结构既可以实现为顺序感知计划行动管线（a），也可以实现为End2End系统（b）。在顺序管道的情况下，可以使用AI和深度学习方法或基于经典的非学习方法来设计组件。End2End学习系统主要基于深度学习方法。通常设计安全监视器来确保每个模块的安全。人工智能，人工智能[彩色图形可以在wileyonlinelibrary.com上查看] 。

图1a中的模块化管道被分层分解为四个组件，可以使用深度学习和AI方法或经典方法进行设计。这些组件是：

感知和定位
高级路径规划
行为仲裁或低级路径规划
运动控制器。

在这四个高级组件的基础上，我们将描述用于自动驾驶系统的方法的相关深度学习论文归类在一起。除了上述算法之外，我们还对相关文章进行了分组，涵盖了在设计自动驾驶汽车深度学习模块时遇到的安全性，数据源和硬件方面的问题。

给定一条通过道路网络规划的路线，自动驾驶汽车的首要任务是在周围环境中了解和定位自身。在这种表示的基础上，计划了一条连续的道路，并由行为仲裁系统确定了汽车的未来动作。最终，运动控制系统反应性地纠正了在执行计划的运动中产生的错误。可以在Paden，Cáp，Yong，Yershov和Frazzoli（2016）中找到关于这四个组成部分的经典非AI设计方法的概述。

随后将介绍自动驾驶中使用的深度学习和AI技术以及调查用于设计上述分层决策过程的不同方法。此外，我们提供了End2End学习系统的概述，该系统用于将分层过程编码为单个深度学习体系结构，该体系结构将感官观察直接映射到控制输出

3、深度学习技术概述

这一章节都是讲DNN的原理的，引用的文献也都很老，与Autonomous Driving没什么关系

3.1、CNN

3.2、RNN

3.3、DRL

代理无法直接访问模拟的环境状态。取而代之的是，传感器读数提供了有关环境真实状态的线索。要解码真实的环境状态，仅映射传感器读数的单个快照是不够的。时间信息也应该包含在网络的输入中，因为环境的状态会随着时间而改变。可以在Sallab，Abdou，Perot和Yogamani（2017a）中找到在模拟器中应用于AV的DQN示例.DQN已开发为在离散的动作空间中运行。在自动驾驶汽车的情况下，离散动作将转换为离散命令，例如左转，右转，加速或破坏。上面描述的DQN方法已经基于策略梯度估计扩展到了连续动作空间（Lillicrap et al。，2016）。Lillicrap等人的方法。（2016年）描述了一种无模型的行为批评算法，能够直接从原始像素输入中学习不同的连续控制任务。S. Gu，Lillicrap，Sutskever和Levine（2016）提出了一种基于模型的连续Q学习解决方案。

尽管可以使用DRL进行连续控制，但自动驾驶中最常见的DRL策略是基于离散控制（Jaritz，Charette，Toromanoff，Perot和Nashashibi，2018年）。由于agent必须探索其环境，因此这里面临的主要挑战是训练，通常是从碰撞中学习。仅在模拟数据上进行训练的此类系统倾向于学习驾驶环境的偏向版本。这里的解决方案是使用模仿学习（IL）方法，例如反强化学习（IRL， Wulfmeier，Wang和Posner，2016年），可以从人类驾驶示范中学习，而无需探索不安全的动作。

4、深入学习环境感知和定位

无人驾驶技术使车辆能够感知环境并做出响应，从而实现自动驾驶。接下来，我们将综合考虑基于摄像头与LiDAR的环境感知，来概述用于驾驶场景理解的最佳方法。我们调查了自动驾驶中的对象检测和识别，语义分割和定位以及使用占用图的场景理解。有关自动视觉和环境感知的调查可以在Zhu，Yuen，Mihaylova和Leung（2017）和Janai，Güney，Behl中找到。和盖格（2017）。

4.1、传感硬件：相机与激光雷达的辩论

深度学习方法特别适用于检测和识别分别从摄像机和LiDAR设备获取的二维（2D）图像和3D点云中的对象。

在自动驾驶社区中，3D感知主要基于LiDAR传感器，该传感器以3D点云的形式提供周围环境的直接3D表示。LiDAR的性能是根据视野，范围，分辨率和旋转/帧速率来衡量的。3D传感器（例如Velodyne®）通常具有360度的水平视场。为了高速行驶，AV至少需要200米的射程，从而使车辆能够及时响应路况的变化。3D对象检测精度取决于传感器的分辨率，最先进的LiDAR能够提供3cm的精度。

最近的辩论引发了相机与LiDAR传感技术之间的争论。领先于自动驾驶技术发展的两家公司Tesla®和Waymo®（O’Kane，2018）在其主要感知传感器以及目标SAE水平方面有不同的理念（SAE委员会，2014）。Waymo®直接将其车辆构建为5级系统，目前自动驾驶的里程超过了1000万英里。2另一方面，Tesla®将其AutoPilot部署为高级驾驶员辅助系统（ADAS）组件，客户可以在方便时打开或关闭它。Tesla®的优势在于其庞大的培训数据库中，该数据库包含超过10亿英里的行驶里程。3该数据库是通过从客户拥有的汽车中收集数据而获得的。

两家公司的主要传感技术均不同。Tesla®尝试利用其摄像头系统，而Waymo则更多地依赖于LiDAR传感器。传感方法各有利弊。激光雷达即使在黑暗中也具有高分辨率和精确的感知能力，但易受恶劣天气条件的影响（例如，大雨; Hasirlioglu，Kamann，Doric和＆Brandmeier，2016年）并且涉及运动部件。相比之下，相机具有成本效益，但缺乏深度感知且无法在黑暗中工作。如果天气条件阻碍了视野，则相机对恶劣天气也很敏感。

康奈尔大学的研究人员试图从视觉深度估计中复制LiDAR类点云（Wang等人，2019）。相对于立体摄像机的左传感器坐标，将估计的深度图重新投影到3D空间中。产生的点云称为伪LiDAR。伪LiDAR数据可以进一步馈送到3D深度学习处理方法，例如PointNet（Qi，Su，Mo，＆Guibas，2017）或聚合视图对象检测（AVOD; Ku，Mozifian，Lee，Harakeh，＆Waslander，2018）。基于图像的3D估计的成功对于自动驾驶汽车的大规模部署至关重要，因为LiDAR无疑是自动驾驶汽车中最昂贵的硬件组件之一。

除了这些传感技术，雷达和超声波传感器还用于增强感知能力。例如，除了三个LiDAR传感器外，Waymo还使用了五个雷达和八个摄像头，而Tesla®汽车则配备了八个摄像头，12个超声波传感器和一个前向雷达。

4.2、驾驶场景理解

自动驾驶汽车应能够检测交通参与者和可驾驶区域，尤其是在可能出现各种物体外观和遮挡物的城市区域。基于深度学习的感知（尤其是CNN）已成为对象检测和识别的事实上的标准，在竞争中获得了显着的结果，例如ImageNet大规模视觉识别挑战（Russakovsky et al。，2015）。
【论文阅读】A survey of deep learning techniques for autonomous driving
图3 场景感知结果的示例。（a）图像中的2D对象检测;（b）应用于LiDAR数据的3D边界框检测器;以及（c）图像上的语义分割结果。二维，二维；3D，三维[可在wileyonlinelibrary.com上查看彩色图形]

使用不同的神经网络架构来检测作为2D感兴趣区域的对象（Dai，Li，He和Sun，2016年; Girshick，2015年; Iandola等人，2016年; Law＆Deng，2018年; Redmon，Divvala 吉尔希克（Girshick）和法哈迪（Farhadi），2016年；S. Zhang，Wen，Bian，Lei，＆Li，2017）图像中的像素方向分割区域（Badrinarayanan，Kendall，＆Cipolla，2017; He，Gkioxari，Dollar，＆Girshick，2017; Treml等，2016; H.Zhao，Qi，Shen，Shi，＆Jia，2018），LiDAR点云中的3D边界框（Luo，Yang，＆Urtasun，2018; Qi et al。，2017; Zhou＆Tuzel，2018），以及其中的对象的3D表示相机-LiDAR组合数据（X.Chen，Ma，Wan，Li，＆Xia，2017; Ku等，2018; Qi，Liu，Wu，Su，＆Guibas，2018）。场景感知结果的示例在图3中进行了说明。图像数据信息更丰富，更适合于对象识别任务。但是，由于深度信息在成像场景投影到成像传感器上时会丢失，因此必须估计检测到的对象的真实3D位置。

4.2.1、边界盒状物体检测器

用于图像中2D对象检测的最受欢迎的体系结构是单级和双级检测器。流行的单级检测器是“ You Only Look Once”（Yolo； Redmon等，2016； Redmon＆Farhadi，2017、2018），单发多盒检测器（SSD； W。Liu等，2016），CornerNet（法律）＆Deng，2018）和RefineNet（S. Zhang et al。，2017）。双级检测器，例如具有CNN（R-CNN）的区域（Girshick，Donahue，Darrell和Malik，2014），Faster-RCNN（Ren，He，Girshick和Sun，2017）或基于区域的全卷积网络（R-FCN; Dai et al。，2016），将物体检测过程分为两部分：感兴趣区域候选提案和边界框分类。通常，单级检测器不能提供与双级检测器相同的性能，但是速度要快得多。如果车载计算资源稀缺，则可以使用诸如SqueezeNet的检测器（Iandola等人，2016或（J.（Li，Peng，＆Chang，2018），它们经过优化可在嵌入式硬件上运行，这些检测器通常具有较小的神经网络架构，从而可以减少操作次数来检测物体，但以检测精度为代价。上述对象检测器基于Pascal视觉对象类别（VOC）2012数据集及其测得的平均平均精度（mAP）（联合与交叉点（IoU）值分别等于50和75）给出在图4中。

【论文阅读】A survey of deep learning techniques for autonomous driving
图4 对象检测和识别性能比较。评估已在Pascal VOC 2012基准数据库上进行。右边的前四种方法代表一级检测器，其余的六种是二级检测器。由于它们的复杂性增加，因此对于双级检测器，运行时性能以每秒帧数（FPS）较低。IoU，联合的交集；mAP，平均平均精度；SSD，单发多盒检测器；VOC，可视对象类[可以在wileyonlinelibrary.com上查看颜色图]

许多出版物展示了对原始3D感测数据以及视频和LiDAR组合信息的目标检测.PointNet（Qi等人，2017）和VoxelNet（Zhou＆Tuzel，2018）旨在仅从3D数据中检测目标，提供还有对象的3D位置。但是，仅点云并不包含图像中可用的丰富视觉信息。为了克服这个问题，使用了组合的摄像头-LiDAR架构，例如FrustumPointNet（Qi等人，2018），Multiview 3D网络（MV3D; X.Chenet等人，2017）或RoarNet（Shin，Kwon和Tomizuka，2018年）在自动驾驶汽车的感官套件中使用LiDAR的主要缺点主要是其成本.5A解决方案将使用神经网络架构，例如AVOD（Ku等人，2018），该架构仅利用LiDAR数据。用于训练，而在训练和部署过程中使用图像。在部署阶段，AVOD能够仅从图像数据中预测对象的3D边界框。在这样的系统中，仅LiDAR传感器仅用于培训数据采集，就像今天用于收集道路数据导航地图的汽车一样。

4.2.2、语义和实例分割

驾驶场景理解也可以使用语义分割来实现，语义分割表示图像中每个像素的分类标记。在自动驾驶环境中，可以用代表可行驶区域，行人，交通参与者，建筑物等的分类标签标记像素。它是高级场景之一，可帮助您全面了解场景，并在自动驾驶，室内导航或虚拟现实和增强现实等应用中使用。

语义分割网络，例如SegNet（Badrinarayananet等，2017），ICNet（H.Zhao等，2018），ENet（Paszke，Chaurasia，Kim和Culurciello，2016），AdapNet（Valada，Vertens，Dhall和＆Burgard（2017）或Mask RCNN（He et al。，2017）主要是具有像素分类层的编码器-解码器体系结构。这些体系结构是基于AlexNet（Krizhevsky，Sutskever和Hinton，2012），VGG-16（Simonyan＆Zisserman，2014），GoogLeNet（Szegedy et al。，2015）或ResNet（He，Zhang，Ren，＆Sun，2016）。

与边界框检测器一样，已努力改善这些系统在嵌入式目标上的计算时间。InTreml等。（2016）和Paszke等人。（2016），作者提出了一种方法来加速数据处理和嵌入式设备上的自动驾驶推理。两种架构都是光网络，可提供与SegNet相似的结果，并降低了计算成本。在AdapNet中解决了语义分割的鲁棒性目标以进行优化（Valada等人，2017）。该模型能够根据场景条件自适应学习专家网络的特征，从而在各种环境下进行稳健的分割，并使用MaskRCNN等架构获得结合的边界框对象检测器和语义分割结果（He et al。，2017）。。该方法通过添加一个与现有分支边界框识别并行的预测对象掩码的分支，将Faster-RCNN的有效性扩展到实例分割。图5显示了基于CityScapes数据集在四个关键语义分段网络上执行的测试结果。每类联合的平均交集（mIoU）指的是多类细分，其中每个像素被标记为属于特定对象类，而每类mIoU则指前景（对象）-背景（非对象）分割。输入样本的大小为×480 px 320 px

【论文阅读】A survey of deep learning techniques for autonomous driving
图5 在Cityscapes数据集上进行语义分割性能比较（Cityscapes，2018）。输入样本是驾驶场景的×480 px 320 px图像。FPS，每秒帧数；mIoU，平均交叉点重叠[可以在atwileyonlinelibrary.com查看颜色图

4.2.3、定位

定位算法旨在在AV导航时计算其姿态（位置和方向）。尽管这可以使用GPS等系统实现，我们将重点研究基于视觉的本地化的深度学习技术。视觉的本地化，也称为视觉测距法（VO），通常是通过匹配连续视频帧中的关键点地标来确定的。在给定当前帧的情况下，这些关键点用作透视图n点映射算法的输入，用于计算车辆相对于前一帧的姿态。深度学习可通过直接影响关键点检测器的精度来提高VO的准确性。在Barnes，Maddern，Pascoe和Posner（2018）中，已经对一个深度神经网络进行了训练，以学习单眼VO中的关键点干扰因素。所谓的“学习型神经网络掩码”充当关键点离群值的拒绝方案，这可能会降低车辆定位的准确性。环境的结构可以通过相机姿势的计算来增量映射。这些方法属于同时定位和映射（SLAM）领域。对于经典SLAM技术的调查，我们向读者介绍了Bresson，Alsayed，Yu和Glaser（2017）.PoseNet（Kendall，Grimes，＆Cipolla，2015），VLocNet ++（Radwan，Valada和Burgard，2018），或Walch等人引入的方法。（2017），Melekhov，Ylioinas，Kannala和Rahtu（2017），Laskar，Melekhov，Kalia和Kannala（2017），Brachmann和Rother（2018）或Sarlin，Debraine，Dymczyk，Siegwart和Cadena（2018），正在使用图像数据以End2End方式估计相机的3D姿势。场景语义可以与估计的姿势一起导出（Radwan等人，2018）.LiDAR强度图也适合于学习自动驾驶汽车的实时，校准不可知的本地化（Barsan，Wang，Pokrovsky和Urtasun，2018年）。。该方法使用深度神经网络从LiDARsweeps和强度图构建学习的驾驶场景表示。车辆的定位是通过卷积匹配获得的。在廷契夫（Tinchev），佩纳特·桑切斯（Penate-Sanchez）和法伦（Fallon）（2019）中，使用激光扫描和深度神经网络来学习用于在城市和自然环境中进行本地化的描述符。

4.3、使用occupancy maps的感知

占用图（也称为OG）是环境的表示，该环境将驾驶空间划分为一组单元并计算每个单元的占用概率。OGrepresentation在机器人技术中很受欢迎（Garcia-Favrot和Parent，2009； Thrun，Burgard和＆Fox，2005），成为自动驾驶汽车的合适解决方案。一对OG数据样本如图6所示
【论文阅读】A survey of deep learning techniques for autonomous driving
图6 占用网格（OG）的示例。图像显示了驾驶环境及其各自的OG的快照（Marina等人，2019）[颜色图可在wileyonlinelibrary.com上查看] 10 | GRIGORESCUET AL。

深度学习可用于占用图的环境中，用于动态物体的检测和跟踪（Ondruska，Dequaire，Wang和Posner，2016），围绕车辆的占用图的概率估计（Hoermann，Bach和Dietmayer，2017年; Ramos，Gehrig），Pinggera，Franke和Rother，2016年），或用于得出驾驶场景上下文（Marina等人，2019年； Seeger，Müller和＆Schwarz，2016年）。在后一种情况下，OG是通过随时间累积数据来构造的，而深度神经网络用于将环境标记为驾驶环境类别，例如高速公路驾驶，停车区或城市内驾驶。

占用图表示车载虚拟环境，以一种更适合路径规划和运动控制的形式集成了感知信息。深度学习在OG的估计中起着重要作用，因为用于填充网格单元的信息是从使用场景感知方法处理图像和LiDAR数据中推断出来的，如本章所述。

5、深度学习的路径规划和行为仲裁

自动驾驶汽车在两点之间找到路线的能力，即起始位置和所需位置，代表了路径规划。根据路径规划过程，无人驾驶汽车应考虑周围环境中存在的所有可能障碍物，并计算出无碰撞路线的轨迹。正如Shalev‐Shwartz，Shammah和Shashua（2016）所述，无人驾驶是一种多主体环境，在超车，让路，合并，左转和右转时，当车辆在非结构化城市中行驶时，宿主车辆必须与其他道路使用者应用复杂的谈判技巧巷道。文学方面的发现指出了一项不平凡的政策，应该在驾驶中确保安全。考虑到应该避免的意外事件的奖励函数（̄）=-Rsr和其余轨迹的（̄）∈[-] Rs1,1，目标是学会平稳而安全地执行困难的操纵。

自动驾驶汽车的最佳路径规划这一新兴主题应以较高的计算速度运行，以在满足特定优化标准的同时获得较短的反应时间。彭德尔顿等人的调查。（2017）提供了汽车领域路径规划的一般概述。它介绍了路径规划的分类法方面，即任务规划器，行为规划器和运动规划器。然而，彭德尔顿等。（2017）没有包含对深度学习技术的评论，尽管最新的文献显示对使用深度学习技术进行路径规划和行为仲裁的兴趣有所增加。接下来，我们讨论路径规划中两个最具代表性的深度学习范例，即IL（Grigorescu，Trasnea，Marina，Vasilcoi和Cocias，2019; Rehder，Quehl和＆Stiller，2017; Sun，Peng，Zhan和Tomizuka，2018）和DRL-基础计划（Paxton，Raman，Hager和Kobilarov，2017; L.Yu，Shao，Wei和Zhou，2018）。

IL的目标是（Grigorescu等，2019; Rehder等，2017; Sunet等，2018），目的是从记录的驾驶经验中了解人类驾驶员的行为（Schwarting，Alonso-Mora和Rus，2018）。该策略暗示了人类示范的车辆教学过程。因此，作者聘用CNN来从模仿中学习计划。例如，NeuroTrajectory（Grigorescu et al。，2019）是一种感知规划的深度神经网络，可在有限的预测范围内学习自我车辆的理想状态轨迹。ILcan也被视为IRL问题，其目标是向人类驾驶员学习其功能（T. Gu，Dolan和Lee，2016； Wulfmeier等，2016）。此类方法使用真实的驾驶员行为来学习奖励功能并生成类似于人的驾驶轨迹。

路径规划的DRL主要是在模拟器中学习驾驶轨迹（Panov，Yakovlev和Suvorov，2018年; Paxton等人，2017年; Shalev‐Shwartz等人，2016年; L.Yu等人，2018年）。该模型基于传输模型被抽象并转换为虚拟环境。在Shalev‐Shwartzet等人中。（2016年）指出，目标函数不能确保函数安全性而不会引起严重的方差问题。针对此问题的建议解决方案是构建由可学习部分和不可学习部分组成的策略功能。可学习的策略使奖励功能最大化（包括舒适性，安全性，超车机会等）。同时，不可学习的政策遵循功能安全性的严格限制，同时保持可接受的舒适度。

IL和DRL在路径规划中都有优点和缺点。IL的优点是可以使用从现实世界收集的数据进行训练。不过，这些数据很少出现在紧急情况下（例如，驶离车道，发生车祸等），使得训练有素的网络在面对看不见的数据时的响应不确定。另一方面，尽管DRL系统能够在模拟世界中探索不同的驾驶情况，但是当移植到现实世界中时，这些模型往往会产生偏差。

【论文阅读】A survey of deep learning techniques for autonomous driving