论文基本情况

题目: Estimating Depth from RGB and Sparse Sensing
作者：Zhao Chen, Vijay Badrinarayanan,Gilad Drozdov, and Andrew Rabinovich
单位：AR公司 Magic Leap, Sunnyvale CA 94089, USA
出处：ECCV 2018

摘要

我们提出了一个深度模型，该模型可以根据已知深度非常稀疏的像素，和RGB图像准确生成密集的深度图。

该模型可同时用于室内/室外场景，

并在NYUv2和KITTI数据集上以接近实时的速度生成最新的密集深度图。
- 即使每10000个图像像素中只有1个深度值，我们也超越了单目深度估计的最新技术，并且在所有稀疏度级别上，我们都优于其他稀疏到密集的深度方法。
- 凭借1/256图像像素的深度值，我们在室内场景上实现的平均误差小于实际深度的1％，可与消费级深度传感器硬件的性能相媲美。
- 我们的实验表明，确实有可能有效地转换使用，例如，将低功率深度传感器或SLAM系统转换成高质量的密集深度图。

关键词：稀疏到稠密深度，深度估计，深度学习

介绍

对于虚拟/混合现实，自动驾驶汽车和机器人等领域中的各种场景理解应用而言，高效，准确和实时的深度估计至关重要。当前，消费级的Kinect v2深度传感器消耗约15W的功率，仅在4.5m的有限范围内在室内工作，并在环境光线增加的情况下退化[8]。作为参考，未来的VR / MR头戴式深度摄像头将需要消耗1/100的功率，并且在RGB摄像头的完整FOV和分辨率下，其范围为1-80m（室内和室外）。这样的要求为联合开发节能的深度硬件和深度估计模型提供了机会。我们的工作开始从这个角度处理深度估计。

由于其固有的尺度模糊性，单目深度估计是一个具有挑战性的问题，最新的模型[4，17]在流行的大规模NYUv2室内数据集上仍然产生> 12％的平均绝对相对误差[24]。这样的误差对于诸如3D重建或跟踪之类的应用是禁止的，并且与诸如Kinect之类的深度传感器相距甚远，该传感器在室内的相对深度误差约为1％[14，25]。

论文笔记_Estimating Depth from RGB and Sparse Sensing

认识到单眼深度估计的局限性，我们为深度模型提供了稀疏的测量深度以及RGB图像（见图1），以便估计完整的深度图。这种稀疏的深度解决了深度标度的歧义，并且可以从例如

飞行时间传感器[8]，
可信的立体匹配，
类似LiDAR的传感器
或定制设计的稀疏传感器中的照明稀疏图案中获取。

我们表明，尽管仅观察了深度图的一小部分，但所得模型仍可以提供与现代深度传感器相当的性能。我们相信我们的结果可以激励更小巧，更节能的深度传感器硬件的设计。由于现在的目标是致密化稀疏的深度图（带有来自RGB图像的其他提示），因此我们将模型称为“深度深度致密化（Deep Depth Densification）”或D3。

我们的D3模型的一个优点是，它可以适应任意稀疏深度输入模式，每个模式都可以对应一个相关的物理系统。

规则的稀疏深度网格可能来自低功率深度传感器，
而某些兴趣点稀疏模式（例如ORB [27]或SIFT [21]）可以从现代SLAM系统[23]输出。

在这项工作的主体中，尽管我们在补充材料中详细介绍了ORB稀疏模式的实验，但由于它们易于解释且与现有深度传感器硬件具有直接相关性，因此我们将重点关注常规网格模式。

我们对深度估计领域的贡献如下：

1.一种用于密集场景深度估计的深度网络模型，其精确度可与常规深度传感器相比。
2.深度估计模型，可同时在室内和室外场景下使用，并且对常见的测量误差具有鲁棒性。
3.一种灵活，可逆的参数化稀疏深度输入的方法，可以在训练和测试期间适应任意稀疏输入模式。

论文笔记_Estimating Depth from RGB and Sparse Sensing

论文基本情况

摘要

介绍

相关工作

相关推荐