论文笔记_Estimating Depth from RGB and Sparse Sensing

论文基本情况

  • 题目: Estimating Depth from RGB and Sparse Sensing
  • 作者:Zhao Chen, Vijay Badrinarayanan,Gilad Drozdov, and Andrew Rabinovich
  • 单位:AR公司 Magic Leap, Sunnyvale CA 94089, USA
  • 出处:ECCV 2018

摘要

我们提出了一个深度模型,该模型可以根据已知深度非常稀疏的像素,和RGB图像准确生成密集的深度图

该模型可同时用于室内/室外场景,

  • 并在NYUv2和KITTI数据集上以接近实时的速度生成最新的密集深度图。
    • 即使每10000个图像像素中只有1个深度值,我们也超越了单目深度估计的最新技术,并且在所有稀疏度级别上,我们都优于其他稀疏到密集的深度方法。
    • 凭借1/256图像像素的深度值,我们在室内场景上实现的平均误差小于实际深度的1%,可与消费级深度传感器硬件的性能相媲美。
    • 我们的实验表明,确实有可能有效地转换使用,例如,将低功率深度传感器或SLAM系统转换成高质量的密集深度图。

关键词:稀疏到稠密深度,深度估计,深度学习

介绍

对于虚拟/混合现实,自动驾驶汽车和机器人等领域中的各种场景理解应用而言,高效准确实时的深度估计至关重要。当前,消费级的Kinect v2深度传感器消耗约15W的功率,仅在4.5m的有限范围内在室内工作,并在环境光线增加的情况下退化[8]。作为参考,未来的VR / MR头戴式深度摄像头将需要消耗1/100的功率,并且在RGB摄像头的完整FOV和分辨率下,其范围为1-80m(室内和室外)。这样的要求为联合开发节能的深度硬件和深度估计模型提供了机会。我们的工作开始从这个角度处理深度估计。

由于其固有的尺度模糊性,单目深度估计是一个具有挑战性的问题,最新的模型[4,17]在流行的大规模NYUv2室内数据集上仍然产生> 12%的平均绝对相对误差[24]。这样的误差对于诸如3D重建或跟踪之类的应用是禁止的,并且与诸如Kinect之类的深度传感器相距甚远,该传感器在室内的相对深度误差约为1%[14,25]。

论文笔记_Estimating Depth from RGB and Sparse Sensing

认识到单眼深度估计的局限性,我们为深度模型提供了稀疏的测量深度以及RGB图像(见图1),以便估计完整的深度图。这种稀疏的深度解决了深度标度的歧义,并且可以从例如

  • 飞行时间传感器[8],
  • 可信的立体匹配,
  • 类似LiDAR的传感器
  • 或定制设计的稀疏传感器中的照明稀疏图案中获取。

我们表明,尽管仅观察了深度图的一小部分,但所得模型仍可以提供与现代深度传感器相当的性能。我们相信我们的结果可以激励更小巧,更节能的深度传感器硬件的设计。由于现在的目标是致密化稀疏的深度图(带有来自RGB图像的其他提示),因此我们将模型称为“深度深度致密化(Deep Depth Densification)”或D3。

我们的D3模型的一个优点是,它可以适应任意稀疏深度输入模式,每个模式都可以对应一个相关的物理系统。

  • 规则的稀疏深度网格可能来自低功率深度传感器,
  • 而某些兴趣点稀疏模式(例如ORB [27]或SIFT [21])可以从现代SLAM系统[23]输出。

在这项工作的主体中,尽管我们在补充材料中详细介绍了ORB稀疏模式的实验,但由于它们易于解释且与现有深度传感器硬件具有直接相关性,因此我们将重点关注常规网格模式。

我们对深度估计领域的贡献如下:

  • 1.一种用于密集场景深度估计的深度网络模型,其精确度可与常规深度传感器相比。
  • 2.深度估计模型,可同时在室内和室外场景下使用,并且对常见的测量误差具有鲁棒性。
  • 3.一种灵活,可逆的参数化稀疏深度输入的方法,可以在训练和测试期间适应任意稀疏输入模式。

相关工作