论文笔记_S2D.44_自监督的从稀疏到稠密:用激光雷达和单目摄像机进行自监督深度补全

基本情况

  • 题目:Self-supervised sparse-to-dense: Self-supervised depth completion from lidar and monocular camera
  • 出处:Ma, F., Cavalheiro, G. V., & Karaman, S. (2019, May). Self-supervised sparse-to-dense: Self-supervised depth completion from lidar and monocular camera. In 2019 International Conference on Robotics and Automation (ICRA) (pp. 3288-3295). IEEE.
  • 开源代码:https://github.com/fangchangma/self-supervised-depth-completion

摘要

深度补全,即从稀疏深度测量中估计出密集深度图像的技术,在机器人技术和自动驾驶中有多种应用。然而,深度补全面临着3个主要的挑战:

  • 稀疏深度输入中的不规则间隔模式
  • 处理多传感器模式(当有彩色图像时)的困难,
  • 以及缺乏密集的、像素级的真值深度标签用于训练。

在这项工作中,我们应对所有这些挑战。

  • 具体来说,我们开发了一个深度回归模型来学习从稀疏深度(和彩色图像)输入到稠密深度预测的直接映射。
  • 我们还提出了一个自监督的训练框架,它只需要彩色和稀疏的深度图像序列,而不需要密集的深度标签。

我们的实验证明,自监督框架的性能优于许多现有的用半密集注释训练的解决方案。
此外,通过半密集注释的训练,我们的网络获得了最先进的精确度,在提交时的KITTI深度完成基准测试中是获胜的方法。

思想:

网络输入rgb1 & depth1 map获取pred depth map。为了进行孔洞的填充,随机选取rgb1附近的rgb2,使用pnp & RANSAC获取相对位姿,并根据pred depth map & rgb2进行重投影获取warped rgb1。对于存在深度值的区域计算depth与pred depth的L1或L2损失,对于孔洞区域计算冲投影的光度误差,进行优化。

论文笔记_S2D.44_自监督的从稀疏到稠密:用激光雷达和单目摄像机进行自监督深度补全

图1. 我们开发一个深度补全的深度回归网络: 给定(a)稀疏激光雷达扫描,(b)一个可能的彩色图像,估计(d)一个密集的深度图像。(d)和(e)所示的半密集深度标签通常很难获得,因此我们开发了一个高度可扩展的、自我监督的框架来训练这类网络。这里使用彩色图像方便观看效果。

网络结构

论文笔记_S2D.44_自监督的从稀疏到稠密:用激光雷达和单目摄像机进行自监督深度补全

自监督训练网络结构

论文笔记_S2D.44_自监督的从稀疏到稠密:用激光雷达和单目摄像机进行自监督深度补全

试验结果比较

论文笔记_S2D.44_自监督的从稀疏到稠密:用激光雷达和单目摄像机进行自监督深度补全