无监督深度估计、运动估计的深度学习方法(一)

摘要

旨在总结无(自)监督深度学习depth、ego-motion和obj-motion的估计方法。在这个领域,在本人的调研中,有几篇比较有代表性的文章,罗列如下。

paper list

monodepth2(2019), code

自监督训练深度估计网络,可选配单目、立体视觉,或者单目与立体视觉结合的自监督训练。

无监督深度估计、运动估计的深度学习方法(一)

训练框架有两个深度神经网络,一个采用UNet预测深度,另一个输入2张RGB图像,即input的通道数为6,预测这两张图像的相对姿态pose。

无监督深度估计、运动估计的深度学习方法(一)

训练大致流程:

  1. 预测深度和pose;
  2. 利用pose构造变换矩阵T,结合深度值,将一个图像投影另一个图像上,形成合成图像;
  3. 最小化投影误差(photometric reconstruction error),优化网络。同时引入边缘平滑损失,优化深度的预测效果。

作者指出,将poesnet和depthnet联合训练,两个任务会相互促进。

模型测试

开源代码中已提供训练好的模型,可根据喜好下载测试

无监督深度估计、运动估计的深度学习方法(一)

Unsupervised Monocular Depth Learning in Dynamic scenes (2020, 谷歌), code

无监督深度估计、运动估计的深度学习方法(一)

对于depth network,利用Unsupervised learning of depth and egomotion from video(2017)中的方法,对depth的**函数改为softplus,在relu之前,增加了randomized layer normalization(参考论文《Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras(2019)》)。

         对于motion network, 参考这篇论文Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras(2019),将输入有RGB图像,改为RGBD 4个通道。其中,D为预测的depth。

         作者对loss层面做了改进。可以处理动态场景,在含有较多动态目标的场景中,取得sota效果。

无监督深度估计、运动估计的深度学习方法(一)

Instance-wise Depth and motion learning from Monocular video (CVPR 2020)

摘要

我们提出了一个端到端的联合训练框架,在没有监督的情况下,直接模拟了多个动态物体的6*度运动、Ego-motion和深度。
在我们的框架中使用的唯一注释是一个视频实例分割图,它可以由我们新的自动注释方案进行预测。我们的贡献主要三个方面。首先,我们提出了一个可微的前向刚性投影模块,它在我们的实例深度和运动学习中起着关键作用。其次,我们设计了一个实例级的光度和几何一致性损失,有效地分解背景和运动目标区域。最后,我们提出了一个不需要额外迭代训练的实例级小批量重组方案。这些元素在一个详细的渐变研究中得到了验证。通过在KITTI数据集上进行的大量实验,我们的框架被证明优于最新的深度和运动估计方法。

无监督深度估计、运动估计的深度学习方法(一)

无监督深度估计、运动估计的深度学习方法(一)

下面两篇文章也不错。在深度估计实验中,大多将下面两个方法作为对标方法。

struct2depth (Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos. In: AAAI (2019))

GLNet (Self-supervised learning with geometric constraints in monocular video: Connecting flow, depth, and camera. In: ICCV (2019))