Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

概述

深度学习已成为对象检测和识别的标准模型。最近，在将CNN模型用于几何视觉任务（例如深度估计，光学流预测或运动分割）方面取得了进展。

但是，Visual SLAM仍然是自动驾驶的领域之一，在这种领域中，CNN在商业自动驾驶系统中的部署还不成熟。在本文中，我们探讨了如何使用深度学习来代替经典的Visual SLAM管道的一部分。

首先，我们描述由标准几何视觉任务组成的Visual SLAM pipeline 的构建块。然后，我们根据作者在商业部署中的经验，概述自动驾驶的Visual SLAM用例。最后，我们讨论了使用深度学习改进最新经典方法的机会。

1. Introduction

自动驾驶是一个快速发展的应用领域，具有复杂的结构（请参见图1），并且在深度学习中取得了很大的进步。

[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

图1：在自动驾驶的复杂结构中，Visual SLAM是不可避免的。该图显示了本地地图生成或车辆姿态估计对于解决基于自动驾驶的感知管道中的任务至关重要。 SLAM必须用于环境建模。通常，SLAM可以使用不同的传感器类型完成。但是，我们将重点放在Visual SLAM上，因为它能够有效处理海量数据，并且摄像机分布广泛，并且视野范围广且可接受。与性能最佳的CNN的所有感知算法相比，当前最先进的Visual SLAM算法不是基于深度学习的。我们提供了CNN机会，尤其是几何任务。

该领域有两个主要范例：

mediated perception approach 这从语义上解释了场景[26、55]，并基于该场景确定驾驶决策。
The behavior reﬂex approach 行为回归法：从端到端学习驾驶决策[5，66] learns the driving decision end-to-end

其中，The behavior reﬂex approach 行为回归法，可以从环境的语义推理中受益。

例如， semantic segmentation 语义分割的auxiliary loss辅助损失[66]与end-to-end learning端到端学习一起使用。
另一方面， semantic reasoning 语义推理是感知的核心任务，其次是控制决策

场景的语义推理包括自定位，对象检测，运动检测，深度估计，对象跟踪等。

CNN（卷积神经网络）已在各种计算机视觉任务（尤其是对象识别）上表现出了惊人的飞跃。
它们是计算密集型的，主要挑战是设计有效的回归损失regression losses。
相比之下，基于CNN的具有最新技术成果的Visual-SLAM方法很少。

当基于关键帧的SLAM [16]的兴起， feature-based Visual SLAM 的标准方法主要是structure from motion (SfM) 算法的结构[30]。
相反，最近的研究，诸如[20]这样直接考虑了图像。
但是，用于单目Visual SLAM的经典方法在地图鲁棒性方面有一个主要限制。实际上，如果不SLAM采用历史数据（ if not obsolete for reutilization），场景变化或照明变化会降低地图的效率
在[38]中，作者尝试学习用于位置识别的鲁棒性强的功能，但是它仍然在一定程度上受到限制，并且不会遇到场景变化的问题。

The map retraining是一个的长期课题。从[3]的早期方法开始，[35]建立了一个时间表，以尝试几次处理之后时更新地图。最近，[13]和[45]提出了两种并发且有前途的方法。为了比较这些方法，但是开发者社区缺乏专门针对该主题的公开数据集。

在硬件方面，文献[46，20]中很少有Visual SLAM算法适合当前汽车系统的低计算能力约束。相反，诸如[44]之类的工业系统则依靠服务器-客户端体系结构来进行繁重的计算。

本文架构：
第2部分概述了现有的Visual SLAM方法。
第3部分讨论了Visual SLAM在自动驾驶中的用例以及经典方法所面临的挑战。
第4节中，介绍了使用基于CNN的方法可以替换基本部分 fundamental pipeline 的机会。
第5节概述了基于CNN的pipeline管道。
第6节总结了论文并提供了潜在的未来方向。

2. Visual SLAM approaches

术语“ Visual SLAM”包括所有将类图像数据作为输入的SLAM方法。因此，与基于其他传感器的SLAM系统的主要区别在于需要从连续的摄像机帧生成深度信息（请参见图1）。

有两种主要的最新方法：基于特征的方法和直接Visual SLAM。第一个依赖于描述性图像特征，例如SIFT或ORB，而第二个则直接使用图像像素。它们共享相同的基本处理pipeline，但是在使用图像信息方面有所不同。

2.1. Fundamental Pipeline基本处理管道

Visual SLAM的基本管道由跟踪，映射，全局优化和重新定位组成：tracking, mapping, global optimization and relocalization。

跟踪：在连续的摄像机图像之间进行跟踪，以便生成本地摄像机轨迹以及深度信息。通常，此任务最终会导致非线性优化问题。在大多数方法中，所谓的关键帧用作跟踪的基础。一旦跟踪表明当前相机帧和关键帧之间没有足够的重叠，就创建一个新的关键帧。

建图：是根据跟踪的传感器数据生成建图的过程。这是基于特征的方法和直接方法之间主要区别所在的地方。第一个生成稀疏特征图，而第二个生成（半）密集点图作为输出。在一些方法中，包括深度和比例信息的关键帧被存储在图形中，其边缘代表关键帧之间的变换。

全局优化步骤：校正全局地图时需要执行此步骤，因为跟踪会在地图中引入漂移误差。由于计算量大，因此通常不时进行全局优化。全局优化步骤依赖于识别之前已经看到并映射过的位置，并因此检测到循环闭合。基于此检测，可以优化所有相机姿势。在某些方法中，对3D信息进行了关联优化。

重新定位：是将传感器放置在地图中未知姿势并尝试估算姿势的过程。通常通过将当前传感器数据与地图进行比较来完成此操作。一种常见的方法是使用描述性图像特征。

[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning
图2：Visual SLAM的基本流程由多个几何视觉任务组成，包括深度估计，光流和姿势估计,depth estimation, optical ﬂow and pose estimation. 。这些任务具有基于CNN各自领域的众所周知的解决方案。相比之下，整体Visual-SLAM并不受深度学习的支配。

2.2. Feature based SLAM

基于特征的Visual SLAM方法利用描述性图像特征进行跟踪和深度估计。这样会导致特征图稀疏。以下各节将说明几种方法。

MonoSLAM（由Davison [16]撰写）：是第一种Visual SLAM方法。它使用基于EKF的功能跟踪。没有环路闭合检测，并且为了实现实时性能，每帧a仅考虑几个特征点。

PTAM：并行跟踪和建图（PTAM）算法[34]通过并行化特征点匹配部分来扩展Davison的方法，以提高实时性能。为了优化，它使用捆绑调整（BA）。因此，它可以处理更多的特征点，从而增加了鲁棒性。

ORB-SLAM [46]：通过添加闭环检测和全局姿势图优化来扩展PTAM的功能。它还依赖于ORB特征描述符，该描述符在具有较低计算成本的情况下是可靠的。

2.3. Direct SLAM

与基于特征的方法相比，直接方法不依赖于特征进行跟踪，而是依赖于整个图像。这提供了获取密集环境模型的机会。

DTAM：密集跟踪和建图（DTAM）[47]是第一个直接发布的方法。尽管缺少诸如闭环检测或全局优化之类的功能，但它基于minimization of the photometric error最小化光度误差引入了对关键帧的跟踪

建图空间离散化为3D网格，该网格限制了地图的最大尺寸。通过在GPU上执行计算来实现实时性能

LSD-SLAM：大规模半密集SLAM（LSDSLAM）[20]也基于光度误差的最小化。它通过构建姿势框架图和包括循环闭合检测在内的全局优化功能，将功能扩展到了大规模。通过减少图像像素的数量来实现计算效率，只是用于跟踪显示高强度梯度的目标。

DSO：在直接稀疏Odometry（DSO）的发布中[19]，作者通过考虑几何误差以及曝光时间和透镜变形来扩展LSD-SLAM的最小化模型。这导致轨迹的更鲁棒的估计。尽管这是一种直接方法，但是生成的地图是稀疏的，以实现实时性能。闭环检测和全局优化不是该方法的明确组成部分，但可以和LSD-SLAM一样的方法完成。

2.4. Benchmarks on KITTI

[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning
表1描述
旋转误差的RMSE（每100m度），平移误差的RMSE（％）。结果取自Wang等。 [64]。
数据是指从所有十个序列（100m至800m）中获取的平均值。对于这些自动驾驶方案，DSO产生了最有希望的结果。

然而，wang等 [64]认为单目方案实存在更大的误差，特别是需要重点关注的指标上面。
图3显示了使用DSO和ORB的双目SLAM与单目SLAM的比较。双目的结果是可以接受的。但单目结果却很差，不可接受的。
由此，我们可以利用深度学习技术来提高潜力。

3. Use Cases and Challenges

自动驾驶中Visual SLAM的用例很多。几乎在任何驾驶情况下，都需要可靠，快速的汽车建图和定位。由于与RADAR或LIDAR等其他传感器相比，摄像机具有高分辨率，因此需要详细了解环境或解决其他传感器歧义信号的问题。
因此，我们确定最相关的用例是停车，高速公路驾驶和城市驾驶。

3.1. Driving Scenarios

For certain driving scenarios, application of Visual SLAM is crucial. In the following section we describe parking, highway and urban driving in detail.

3.1.1 Parking

停车的主要要求是在低速行驶时，在汽车附近需要准确的环境图。最常见的情况是在停车场，公共停车场和家中停车。尽管前两者需要在未知环境中进行小比例绘制，但在家庭区域中的停车专用于SLAM的应用。首先，汽车在与记录初始地图平行的同时学习家园区域中的轨迹。一旦汽车返回到本国区域，就会加载地图，进行重新定位，并且汽车可以在更新地图的同时沿学习的轨迹行驶。

关于地图的类型，feature maps and dense point maps特征地图和密集点地图均适用于此用例。根据使用的特征类型，特征图可能更适合于重新定位，而密集点图则提供了有关环境的更多信息。

3.1.2 Highway Driving

高速公路驾驶场景对于Visual SLAM是一个有限但重要的用例。与停车或市区驾驶相比，由于速度较高，因此实时运行Visual SLAM方法变得非常困难，因为需要至少30fps的高帧速率。另一方面，环境几何形状不太复杂，例如周围物体平行布置。 Artal等。 [46]（请参阅第2.2节）已在KITTI基准套件[27]上显示了它们在第四路（纯高速公路现场）上的最高准确性。该方法的RMSE为1.79m，远低于所有场景的平均值。它已经实现了高速公路驾驶稀疏SLAM技术的高精度。使用深度学习没有太多的改进空间。但是，由于所需的高帧速率，基于稀疏CNN的SLAM技术可能在效率方面优于现有技术。

3.1.3 Urban Driving

内城区的自动驾驶极具挑战性。与公路驾驶相比，环境要复杂得多且变化多端，与停车场景相比，该环境包含许多动态对象，在3D重建和定位过程中必须主动或被动地检测这些对象。在上一部分中，我们描述了ORB-SLAM [46]（稀疏和直接）在KITTI高速公路上的高性能。相比之下，他们对城市场景的结果对于RMSE为46.36m（迹线8）的大迹线是不精确的。这使我们有一点想像力，这是多么艰巨的挑战，并且在这种用例中我们可能需要进行密集的重构。另一方面，即使在大型城市数据集上，稀疏直接方法DSO-SLAM [19]的性能也比ORB-SLAM高得多。 Stereo-DSO在KITTI里程表挑战中排名第14位。因此，它的排名高于半密集直接LSD立体声SLAM [20]（第27位）。

因此，关键的策略不仅是重建点的数量，也要考虑稳定地识别静态点的能力，去除场景中的许多动态对象

这样的智能任务可以通过CNN加以改进，这些CNN可以借助大型数据集学习良好的区域来进行重构。

3.2. Types of Maps

建图是自动驾驶的关键支柱之一。 Google进行的第一个可靠的自动驾驶演示，主要依靠：定位到先验地图区域。由于尺度的问题，传统的建图技术通过语义对象检测得到了增强，从而实现了可靠的消歧。此外，定位的高清晰度地图（HD地图）可以用作物体检测的先验。

3.2.1 Private Small Scale Maps

私人小比例尺地图：使用定制小比例尺地图的三个主要原因。第一个原因是隐私，在法律上不允许其绘制该区域，例如私人住宅区。第二个原因是高清地图仍不能覆盖大部分区域。第三个原因是对动态结构的检测，这可能与整体测量有所不同。这通常是通过经典的半密集点云图或基于地标的图获得的。局部地图主要通过上一节中介绍的方法获得（请参阅第2节）。

3.2.2 Large Scale HD Maps

HD地图有两种类型，即密集语义点云地图和基于语义地标的地图。基于语义地标的地图是密集语义点云的中间解决方案，可能会变得冗余了。

Dense Semantic Point Cloud Maps:密集语义点云图：前者是高端版本，其中所有语义和密集点云都可以高精度获得。
Google和TomTom采用了这种策略。由于这是高端产品，因此覆盖整个世界非常昂贵，并且需要大量内存。在这种情况下，将建图视为比感知更强的提示。如果对齐/匹配良好，则已经从地图上获得了所有静态对象（道路，车道，路缘，交通标志），并且通过某种背景扣除background subtraction获得了动态对象。 TomTom RoadDNA提供了一个界面，可将各种传感器（例如激光雷达，相机等）对齐，下面是将密集语义3D点云与图像对齐的屏幕截图。他们已经绘制了欧洲大部分城市的地图，并且假设距GPS较近的位置，其精度为10厘米。

Landmark based Maps :基于地标的地图：基于语义对象而不是通用3D点云。因此，它主要适用于相机数据。 Mobileye和HERE遵循这一策略。在这种方法中，利用对象检测来提供高清地图，并通过汇总来自不同汽车的多个观测值来提高准确性。

如果定位良好，可以将HD映射视为主要提示，并且语义分割算法可以大大简化为HD映射获得的先验的改进算法。在图4中，语义点云对齐为静态对象提供了准确的语义分段。请注意，它不涵盖天空之类的抽象对象。对于定位精度，这将需要一个很好的置信度度量，通常使用某种重投影误差。 HD映射还可用于验证或对语义分段进行后处理，以消除误报。

[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

3.3. Challenges

Despite showing good performance, there are still challenges for Visual SLAM systems to overcome. We identify algorithm and application related challenges

•纯旋转：如果摄像机仅旋转，则无法估计连续帧之间的视差。

•地图初始化：大多数方法都是从随机初始化开始的，收敛速度取决于相机在初始阶段的移动，这使其不可靠。

•比例尺模糊性：基于单个摄像机的Visual SLAM系统只能估计场景和轨迹，直至整体比例尺。需要全球参考来解决规模问题。

•卷帘快门：汽车相机主要是卷帘快门。如果要高速移动相机，例如对于高速公路驾驶，会发生卷帘百叶窗变形。如果算法中未对此进行处理，则会产生分歧。

•闭环检测：最先进的方法使用图像功能来检测闭环。这在计算上是需要大量资源支持的，并且在很大程度上取决于描述符的鲁棒性。

[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

3.3.2 Application related challenges

自修复地图：场景结构一直在变化，需要通过建图和定位来处理。
在汽车上绘制地图：在汽车的嵌入式处理器中构建地图，而无需访问云基础架构。对于需要大量计算能力的基于CNN的培训而言，这尤其困难。
大规模区域的独特签名：用于自动驾驶的地图非常大，通常会出现类似的结构，需要使用语义或全局结构来消除歧义。

4. Deep Learning Opportunities

在本节中，我们将探讨替换图2中所示的Visual SLAM单个块以提高性能。

最近，大多数几何视觉任务现在由深度学习模型负责[27]。因此，下一章将介绍它们的特定功能，并概述在Visual SLAM中使用这些深度学习解决方案的可能性。

4.1. Depth Estimation

定位或深度估计对于自动驾驶至关重要。使用CNN进行深度估计的起源[18]导致了深度估计社区中广泛的方法和应用。深度估计方法[21]大多基于类似于语义分割的体系结构，该体系结构常常受到基于分类的网络的启发。当监督深度估计时，损失函数通常读作回归损失[18，39，41，59] w / w正则化项[70]。有趣的是，[11]使用排名损失惩罚了预测和基本事实之间的非相对对应关系，而[4]则将深度估计定义为分类问题。在无监督深度估计的情况下，将在多个视图之间进行投影函数（使用立体约束或估计视图之间的运动），并根据光度误差评估预测的一致性[25，28，70，61 ]。在表2中，我们总结了全部基于CNN的KITTI [27]排行榜上的三种领先方法。因此，在Visual SLAM的背景下，使用神经网络和固有应用程序进行深度估计很有希望。

[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

4.2. Optical Flow

基于CNN的光流产生了最新的技术成果。我们使用表3中的排行榜结果验证了这一点，这些结果均基于CNN。由于摄像机连续运动以及独立物体的运动，运动检测[31]特别具有挑战性。

对于避免事故并确保汽车的平稳操纵和制动而言，移动物体至关重要。

运动提示还可以启用通用对象检测，因为不可能事先针对所有可能的对象类别进行训练。

运动检测中的经典方法集中于基于几何的方法[57、50、49、42、65]。但是，基于纯几何的方法有很多局限性，运动视差问题就是这样的例子。
视频中学习运动的最新趋势[56、32、17、61、24]已经出现。尽管如此，这种趋势集中在像素运动分割上。 Fragiadaki等。等提出了一种分割运动对象的方法[24]，该方法使用单独的提案生成。但是，提案生成方法在计算上效率低下。 in那教徒等在[32]中提出了一种外观和运动融合的方法。这项工作着重于通用对象分割。它不是为静态/移动车辆分类而设计的。托克马科夫等等[56]使用单流全卷积网络和光流输入来估计运动类型。该方法适用于仅光学流或级联图像并将流作为输入。级联输入将不会从可用的预训练权重中受益，因为它们仅在RGB上进行了训练。德雷尔等等[17]描述了一种视频分割工作，该工作使用了来自R-CNN的跟踪检测，表示为管。然后是一个时空图来分割对象。

[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

4.3. Feature Correspondence

有基于CNN的特征对应技术feature correspondence techniques。

例如，[12]中的通用通信网络通过使用空间变换器到归一化器进行细微变换，证明了各种数据集的最新结果。

这是独立于使用特征对应的应用程序的特征对应学习的示例。学习特征对应关系是一个开放的问题，这对于后期阶段（例如包调整）是最佳的。例如，特征匹配的端到端学习可能还可以学习多样性和分布，而不是仅仅选择*的高纹理特征。

4.4 BA调整

对于基于CNN的BA，还没有成熟的解决方案。

去年在CVPR中发表了一些最初的尝试，[58]试图以一种不同的方式对投影约束进行建模。有一些技术可以共同学习像Visual SLAM这样的管道，其中包括一个可学习的部分（用于特征匹配和深度）和一个用户定义的几何部分。例如，当您共同学习特征匹配时，它可能还可以学习多样性和分布，而不仅仅是选择*的纹理特征。

4.5 语义分割

语义分割的目的是将图像分为具有各种意义的语义上有意义的部分。它已被用于机器人技术[60、6、62、36]，医疗应用[14、71]，增强现实[43]，以及最著名的自动驾驶技术[69、53、9、15]。开发的工作主要分为三个子类别。

第一个[22，23，29]使用逐块训练来进行最终分类。

在[22]中，将图像输入拉普拉斯金字塔，每个标度都通过一个三级网络转发，以提取分层特征，并使用逐块分类。使用基于图的经典分割方法对输出进行后处理。在[29]中，一个深层网络被用于最终的像素级分类，以减轻所需的任何后期处理。

第二个子类别[40，48，1]专注于像素级分类的端到端学习。

它始于[40]中开发完全卷积网络（FCN）的工作。网络学习了热图，然后使用反卷积对热图进行了上采样，以获得密集的预测。与逐块训练不同，此方法使用完整图像来推断密集的预测。在[48]中，开发了更深的反卷积网络，其中使用了堆叠的反卷积和解卷层。在Segnet [1]中，使用了类似的方法，其中部署了编码器-解码器体系结构。在图7中，显示了在自动驾驶设置中应用的Segnet语义分段输出的示例。

最后，[68，22，48，10，51，52]中的工作集中在多尺度语义分割上。
最初在[22]中，缩放问题是通过将图像的多个重新缩放版本引入网络来解决的。 [40]中的跳过网体系结构用于合并来自不同分辨率的热图。由于这些体系结构依赖于对图像进行下采样，因此分辨率的损失会损害最终的预测。 [52]中的工作提出了一个U形架构网络，其中来自不同初始层的特征图被上采样并连接到下一层。文献[68]中的另一项研究介绍了膨胀卷积，它在不损失基于膨胀因子的分辨率的情况下扩展了接收域。

4.6 相机姿势估计

在地图上进行定位是SLAM的关键部分，该位置可以通过6*度相机姿势来描述。

可以使用基于特征的pipeline（如SfM）来恢复此类姿势。肯德尔等 [33]训练了CNN，以端到端的方式将单个RGB图像直接映射到相机的方向和位置。与基于图像数据库的方法不同，此提议的神经网络PoseNet不需要与场景大小成线性比例的内存。此外，在基于SIFT的配准失败的情况下，PoseNet被证明对光照条件不良，运动模糊和不同的相机内部特性具有鲁棒性。

替代直接使用6*度相机的姿态进行回归，Brachmann等 [8]使用了一系列不太复杂的任务。第一个网络学习将本地图像块映射到3D场景空间中的相应位置。随后，使用可区分的RANSAC [7]方法获得与预测场景坐标对齐的相机姿势。这种方法虽然仍然是端到端的可训练管道，但它利用了几何约束并获得了出色的结果。

5.基于CNN的管道

由于深度神经网络的性质，可以为不同的高维回归任务共同学习相同的网络体系结构。通过共享各种任务的功能，可以提高效率和通用性。这对于诸如自动驾驶之类的实时关键应用程序尤其有用。

在第4节中，我们详细研究了使用CNN几何视觉任务使用Visual SLAM重建3D场景的构建块技术。本节介绍3D场景和基本几何任务之间的封闭关系。

5.1。联合监督语义SLAM

Tateno等人[54]提出了一种CNN来共同学习语义分割和深度图。他们的方法将基于CNN的深度预测与SLAM集成在一起，以克服传统的单眼重建局限性。通过将预测的语义标签与密集点云融合，它们可以从单眼视角获得语义一致的场景重建。这种方法结合了有效的几何构造块（如深度估计和语义分段），以改进Visual SLAM的传统管道（例如PTAM，LSD-SLAM）。

5.2。使用光流的联合无监督SLAM

最近，[67] Yin等。提出了一种联合架构，该架构可以以无监督方式同时基于视频输入学习单眼深度，光学流和自我运动估计。他们使用KITTI基准套件[27]来完成每个视觉任务（如里程计）的最新结果。该方法消除了基于CNN的SLAM数据注释的需要。关键思想是利用每个几何视觉任务（深度，姿势和光学流）的强烈依赖性来设计纯粹基于一致性检查的联合损失函数。因此，设计了用于深度和姿势的刚性解码器，例如用于光学流的非刚性运动解码器。损失的定义如下：
[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

Lrw（翘曲损耗）和Lds（深度平滑度）表示刚性解码器。 Lfw，Lfs和Lgc设计了非刚性运动定位器（请参见图8）。所有这些都可以纯粹基于一致性直接从3D场景中得出。表5中突出显示了用于里程表估计的KITTI结果。该方法在汽车场景中的性能优于ORB-SLAM。简短的大纲强调了将深度学习用于SLAM的可能性

六，结论

CNN已成为自动驾驶中用于对象检测和语义分割的事实上的方法。 他们还展示了在几何计算机视觉算法（如深度和流量估计）方面的有希望的进展。但是，基于CNN的Visual SLAM方法进展缓慢。在这项工作中，我们概述了用于自动驾驶的Visual SLAM，并调查了在各种构造块中使用CNN的可能机会。作者认为这是一个令人兴奋的研究领域，并希望这项工作能够鼓励进一步的发展。未来的研究将是原型和评估所提出方法的准确性。

[翻译]Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

Visual SLAM for Automated Driving Exploring the Applications of Deep Learning

文章目录

概述

1. Introduction

2. Visual SLAM approaches

2.1. Fundamental Pipeline基本处理管道

2.2. Feature based SLAM

2.3. Direct SLAM

2.4. Benchmarks on KITTI

3. Use Cases and Challenges

3.1. Driving Scenarios

3.1.1 Parking

3.1.2 Highway Driving

3.1.3 Urban Driving

3.2. Types of Maps

3.2.1 Private Small Scale Maps

3.2.2 Large Scale HD Maps

3.3. Challenges

3.3.2 Application related challenges

4. Deep Learning Opportunities

4.1. Depth Estimation

4.2. Optical Flow

4.3. Feature Correspondence

4.4 BA调整

4.5 语义分割

4.6 相机姿势估计

5.基于CNN的管道

5.1。 联合监督语义SLAM

5.2。 使用光流的联合无监督SLAM

六，结论

相关推荐

5.1。联合监督语义SLAM

5.2。使用光流的联合无监督SLAM