论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

基本情况

  • 题目:DeepFusion: real-time dense 3D reconstruction for monocular SLAM using single-view depth and gradient predictions
    • (深度融合: 基于单视图深度和梯度预测的单目SLAM实时稠密三维重建)
  • 作者:Laidlow, T., Czarnowski, J., & Leutenegger, S
    • Dyson Robotics Laboratory, Imperial College London, UK
  • 出处:Laidlow, T., Czarnowski, J., & Leutenegger, S. (2019, May). DeepFusion: real-time dense 3D reconstruction for monocular SLAM using single-view depth and gradient predictions. In 2019 International Conference on Robotics and Automation (ICRA) (pp. 4068-4074). IEEE.

摘要

虽然由稀疏单目SLAM系统创建的基于关键点的地图有利于相机位姿跟踪,但对于许多机器人任务,可能需要稠密的三维重建。深度相机的相关解决方案受限于工作范围和室内空间,而且基于最小化帧间光度误差的稠密三维重建系统通常约束较差且存在尺度模糊问题。为了解决这些问题,我们提出了一个三维重建系统,利用卷积神经网络(CNN)的输出,为包含度量尺度的关键帧生成完全稠密的深度图。我们的DeepFusion系统能够在GPU上实时的进行三维重建。它利用网络学习的不确定性,以概率的方式将半稠密多视图立体算法的输出与CNN的深度和梯度预测相融合。虽然深度学习网络只需要在每个关键帧上运行一次,但我们可以优化深度地图通过结合新的帧图像,以便不断利用新的几何约束。根据其在合成数据集和真实世界数据集上的性能表现,我们证明了DeepFusion系统至少具有和其他同类的系统一样好的性能。

主要贡献

  • 1.提出了一种三维重建技术DeepFusion该系统能够根据单目SLAM系统提供的RGB图像尺度模糊的姿态信息,实时的生成大规模的稠密深度图。
  • 2.使用网络预测的深度梯度作为对相邻像素的约束,以确保重建中的全局一致性,并利用深度学习的不确定性,以概率方式融合不同输出。

算法结构

 

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

图1 DeepFusion的框架

DeepFusion用一系列关键帧深度图表示观察到的几何体。对于每个新的RGB图像,系统从单目SLAM系统获取姿势,然后使用已有的方法更新活跃的关键帧的半稠密深度估计值。如果在半稠密估计中,摄像机的平移量大于λtrans或内部特征点数小于λinliers,则新的关键帧将被创建。为了保持较高的帧速率,本文的网络输出对于每个关键帧只生成一次。利用CNN,我们从新的关键帧图像中预测了log对数深度、log对数深度梯度和相关的不确定性。这种类型的深度表示在数学运算上更适合于网络预测而且当为负深度值的时候是有意义的,并且两个log深度之间的差能够表示两个深度值之比,具有尺度不变性。本文还选择预测图像平面上x和y方向的log对数深度梯度,而不是曲面法线,以保持优化问题的线性,因为这避免了需要执行点积和归一化的操作。单视图深度预测是一个高度欠约束的问题,在实践中,网络似乎更容易对有细密纹理的局部几何图形进行精确预测,而不是绝对的每个像素的深度。故分别预测绝对log对数深度值和log对数深度梯度,同时利用各自的不确定性来反映网络在这两个不同任务中能力的差异。如果没有新的关键帧被创建,则当前的半稠密深度图和网络输出将融合更新当前深度图。以下是本文算法实现的关键点:

A.网络结构

本文采用了U-Net网络结构,同时增加三个或者更多的相同解码器来预测log深度值的不确定性、log深度梯度和log深度梯度值不确定性。所有的图像输入输出分辨率为256*192。网络学习中采用最大似然函数作为代价函数,进而用来预测均值和方差。

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

B.半稠密估计

对于关键帧中具有充足纹理特征的每一个像素点xi,会沿着极线搜索其深度值dsemi,i,以使五个等距空间点的平方差之和最小化。如果存在该像素当前深度估计值,则在间隔dsemi,i-2δsemi,i至dsemi,i+2δsemi,i上搜索其值。要不然搜索在整个极线上进行。xi表示关键帧上一个像素点,TWC0表示关键帧的估算位姿,TWC1表示参考帧的估算位姿,则有灰度误差表达式如下:

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

本文采用有限差分来近似误差函数的雅克比:

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

采用如下公式近似表示每一次半稠密测量的不确定性,然后将半稠密测量的深度与不确定性转化为对数空间中与深度学习网络的输出进行匹配:

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

C.优化

通过最小化如下代价函数来更新当前帧深度预测:

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

半稠密代价函数项对已有效估算得到的半稠密对数深度值的像素集施加一元约束。

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

其中深度学习网络的深度代价函数项对所有像素的融合深度图施加了一个一元约束,具体如下所示:

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

为了在将半稠密和深度学习网络的深度值融合在一起的同时保持全局一致性,我们添加了一个额外的代价函数项,该函数项在给定像素及其四个领域像素点之间施加成对约束:

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

 

主要结果

 

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

图2 关键帧选择的效果图,其中顶部结果来自ICL-NUIM Office2数据集,中部来自ICL-NUIM LivingRoom1数据集,底部来自TUM RGB-D fr2 desk数据集。从左至右:输入图像、地面真实深度、半稠密深度估计、网络深度预测、x方向网络深度梯度预测、y方向网络深度梯度预测、优化后的深度图。

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

图3 来自SceneNet RGB-D数据集的网络预测示例。从左至右:输入图像、log对数深度预测、log对数深度不确定性预测、x方向log对数深度梯度预测、x方向log对数深度梯度不确定性预测、y方向log对数深度梯度预测、y方向log对数深度梯度不确定性预测。

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

表1 不同的系统在ICL-NUIM和TUM RGB-D数据集上的重建精度的比较(在地面真实值的10%以内)

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

表2 DeepFusion正确深度估计所占百分比实验结果

论文笔记_S2D.19_2019-ICRA-DeepFusion: real-time dense dense 3D reconstruction for monocular SLAM us...

表3 从正确的深度值所占百分比分析成对约束对重建精度的重要性

参考:【泡泡点云时空】DeepFusion:基于单视图深度和梯度预测的单目SLAM实时稠密三维重建