摘要

旨在总结无（自）监督深度学习depth、ego-motion和obj-motion的估计方法。在这个领域，在本人的调研中，有几篇比较有代表性的文章，罗列如下。

paper list

monodepth2(2019)， code

自监督训练深度估计网络，可选配单目、立体视觉，或者单目与立体视觉结合的自监督训练。

无监督深度估计、运动估计的深度学习方法（一）

训练框架有两个深度神经网络，一个采用UNet预测深度，另一个输入2张RGB图像，即input的通道数为6，预测这两张图像的相对姿态pose。

无监督深度估计、运动估计的深度学习方法（一）

训练大致流程：

预测深度和pose；
利用pose构造变换矩阵T，结合深度值，将一个图像投影另一个图像上，形成合成图像；
最小化投影误差（photometric reconstruction error），优化网络。同时引入边缘平滑损失，优化深度的预测效果。

作者指出，将poesnet和depthnet联合训练，两个任务会相互促进。

模型测试

开源代码中已提供训练好的模型，可根据喜好下载测试

无监督深度估计、运动估计的深度学习方法（一）

Unsupervised Monocular Depth Learning in Dynamic scenes (2020, 谷歌）， code

无监督深度估计、运动估计的深度学习方法（一）

对于depth network，利用Unsupervised learning of depth and egomotion from video（2017）中的方法，对depth的**函数改为softplus，在relu之前，增加了randomized layer normalization（参考论文《Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras（2019）》）。

对于motion network，参考这篇论文Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras（2019），将输入有RGB图像，改为RGBD 4个通道。其中，D为预测的depth。

作者对loss层面做了改进。可以处理动态场景，在含有较多动态目标的场景中，取得sota效果。

无监督深度估计、运动估计的深度学习方法（一）

Instance-wise Depth and motion learning from Monocular video （CVPR 2020）

摘要

我们提出了一个端到端的联合训练框架，在没有监督的情况下，直接模拟了多个动态物体的6*度运动、Ego-motion和深度。
在我们的框架中使用的唯一注释是一个视频实例分割图，它可以由我们新的自动注释方案进行预测。我们的贡献主要三个方面。首先，我们提出了一个可微的前向刚性投影模块，它在我们的实例深度和运动学习中起着关键作用。其次，我们设计了一个实例级的光度和几何一致性损失，有效地分解背景和运动目标区域。最后，我们提出了一个不需要额外迭代训练的实例级小批量重组方案。这些元素在一个详细的渐变研究中得到了验证。通过在KITTI数据集上进行的大量实验，我们的框架被证明优于最新的深度和运动估计方法。

无监督深度估计、运动估计的深度学习方法（一）

下面两篇文章也不错。在深度估计实验中，大多将下面两个方法作为对标方法。

struct2depth (Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos. In: AAAI (2019))

GLNet (Self-supervised learning with geometric constraints in monocular video: Connecting flow, depth, and camera. In: ICCV (2019))

无监督深度估计、运动估计的深度学习方法（一）

摘要

paper list

monodepth2(2019)， code

模型测试

Unsupervised Monocular Depth Learning in Dynamic scenes (2020, 谷歌）， code

Instance-wise Depth and motion learning from Monocular video （CVPR 2020）

相关推荐