论文研读:单帧图像深度重建2017 Unsupervised Monocular Depth Estimation with Left-Right Consistency

一、简介

算起来有半年没更新博客了,最近一直在进行关于深度学习进行单帧图像深度重建方面研究。期间读了很多论文。在以后的一段时间,我尽量将1)每篇论文重点内容;2)论文相关源码;3)源码解释;4)源码涉及的部分原理以博文的形式发出来。

二、概述

Unsupervised Monocular Depth Estimation with Left-Right Consistency发表于2017年CVPR。这篇文章是伦敦大学计算机学院所作的研究。如果我没有记错,这篇文章的主导思想应该是受到2016年德国慕尼黑工业发表在CVPR上一篇关于数据集的文章启发。下面我主要讲解这篇文章提出的网络结构。

论文研读:单帧图像深度重建2017 Unsupervised Monocular Depth Estimation with Left-Right Consistency

三、深度估计网络

论文研读:单帧图像深度重建2017 Unsupervised Monocular Depth Estimation with Left-Right Consistency

上图是文章中提到的三种网络结构:其中前两种是前人所作的工作,本文对前两种进行了改进,提出了图中的第三种网络结构。

1.Naive:此网络结构简单,以右目图片作为supervisor,利用左目图片+CNN生成的视差图能够生成右目图片。
Naive缺点:CNN生成的视差图是对齐右目视图的,我们希望CNN生成的视差图是与左目图片对齐的。
2.NoLR:分析Naive的缺点,提出了NoLR网络,其输入为左目图片,并且以左目图片作为监督,用右目图片+CNN生成的视差图,恢复左目图片。此时生成的视差图是对齐左目图片的。
NoLR缺点:NoLR在实际工作时,在生成的视差图中,会有纹理复制问题,造成伪像现象。
3.OURS:P本文提出的方法本质思想是输入左目图片,CNN生成左目视差图与右目视差图,同时以左目与右目图片作为监督,让左目图片+右目视差图生成右目图片,右目图片+左目视差图生成左目图像。
ours优点:1.提出了左右目视差图一致性loss;2.能够一定程度上解决NoLR的纹理复制以及伪像问题。