论文笔记 —— StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction

论文笔记 —— StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction
上图所示为网络架构,蓝色方框之前的部分是粗粒度的深度估计,这部分首先通过 Encoder 的结构进行图像特征提取,然后将左右两个图片的特征得到相应的 Cost Volume, 之后利用三维卷积操作得到 1/8 分辨率的深度图。

粗粒度的深度估计

提取特征:左右图共享权值的暹罗网络(Siamese Network)分别提取左右图的特征,使用 K 个 5*5 的卷积层进行下采样操作(K 通常取 3 或者 4),在下采样的过程中,卷积的输出通道数保持为 32,然后是 6 个残差块(Residual Block),每个残差块由于卷积、批正则化(Batch Normalization)、矫正线性单元(Leakey ReLU)等操作;最后是一个 3*3 没有正则化、没有**层的卷积层,最终得到输出的 32 通道的特征图。

匹配代价 Cost Volume:首先将两幅图的相关关系进行比较,比较两个特征图并将两个特征图的差异作为基础得到 cost volume,之后再利用 3*3*3 的带有批正则化和**层的三维卷积,操作后最终针对每个像素得到单通道的视差。

可导的 Arg Min:利用该函数从 cost volume 的产物中得到最后的深度图,采用 WTA 策略。

层次化的视差优化——考虑边缘结构的上采样

粗粒度的深度估计之后,首先将 1/8 分辨率的深度图直接通过双线性插值的上采样策略上采样放大到全分辨率,将原本输入的 RGB 图像复制成相同维度,由于转置卷积(Deconvolution)存在一些表现性能不佳的劣势,因而转而选用 双线性上采样 和 卷积(Convolution)操作替换。首先将深度图和 RGB 图像拼接(Concatenate),得到的拼合张量再经过一个 3*3 的卷积操作得到 32 通道的表示张量,之后再通过 6 个 残差块(Residual Block)的操作,每个残差块由于卷积、批正则化(Batch Normalization)、矫正线性单元(Leakey ReLU)等操作;为了扩大网络,在每个残差块中使用了扩张(Dilate)卷积的操作,最后经过一个 3*3 的卷积,得到最后的单通道深度图。