Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints

基于3d几何约束的无监督深度估计

文章发表在CVPR 2018 ,代码貌似未开源

摘要
此前的无监督的深度估计的方法大多是采用基于图像重建和基于梯度的损失,只考虑了局部像素点之间的关系,并未从整体上对深度进行约束。我们的主要贡献是明确考虑了场景的三维几何,提出一种三维几何约束,使得相邻帧之间估计出的点云和相机自运动保持一致。另外作者的方法也可以在自己用手机收集的数据集上进行训练。

Introduction
结构上都是类似的,包含一个单视图深度估计网络,和一个基于相邻图像对的相机位姿估计网络。
主要的贡献包括以下三点:
1、提出一个直接对估计的深度不一致性进行惩罚的loss
2、一个Principled mask。通过计算产生一个mask,而不是采用学习的方法,解决运动以及前后帧之间存在的遮挡问题。
3、提出的方法可以在未标定的视频上进行学习。

Method
总体流程如下图
Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
1、Problem Geometry
给定连续帧 Xt-1 和 Xt,以及对应的估计出的深度Dt-1、Dt和自运动(也就是相机位姿)Tt,就可以把二维的图像点投影到三维空间的点云。具体就是,例如图像上的一个像素点在其深度值D和相机内参K的情况下,就可以计算其对应的三维点。Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
然后在知道t-1时刻到t时刻的自运动Tt,就可以把三维点Qt转换到t-1时刻对应的三维点Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
然后基于Dt和Tt就可以对图像进行重建 Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
2、Principled Masks
在已知连续帧 Xt-1 和 Xt,以及对应的重建的图片对,就可以计算得到 masks Mt−1, Mt。文章中没说明具体的方法,应该就是用原图和重建的图像做一个像素差。能够稳定重建的像素点差值就小或者趋于0,权重就可以设的大一些,不能够很好的重建的点就是遮挡区域,权重就设的小一点。

3、Image Reconstruction Loss
Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
4、A 3D Point Cloud Alignment Loss
如图:
Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
这里也是作者的主要贡献,作者并没有在三维点上直接进行一个差值来作为约束。而是采用ICP(迭代最近点)的方法来对估计的深度D和位姿T进行更新。(ICP是现有的方法,具体的实现我不清楚)。
ICP的输入是一对三维点云,这里就是Qt和 ˆ Qt,输出是一个转换矩阵T’和残差r。如果神经网络估计的深度和位姿足够好,那么点云对就是很好的匹配的。对于输入的点云对,如果通过ICP还能找到优化的转换矩阵,那说明神经网络估计的结果还不够好,那么就使用ICP算出的T’对估计的T进行优化(就是做差)。同时使用残差r对深度进行优化。损失函数如下:Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
5、Additional Image-Based Losses
包括结构相似性和深度梯度平滑项
Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints

Experiments
实验部分就不多说了,看原文吧。