2019cvpr oral | 实时自适应立体匹配

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者：红薯好吃

https://zhuanlan.zhihu.com/p/83411945

本文仅做学术分享，如有侵权，请联系删除。

论文题目：Real-time self-adaptive deep stereo

论文摘要：以往的基于深度学习的模型往往基于某一特定的数据集进行训练，当在不同数据分布的环境下测试时，精度就大幅下降，这使得模型难以应用于实际。作者提出了一个无监督的在线自适应目标域的深度立体匹配模型。同时，作者对模型进行了轻量化处理，使得模型能够实时推理。作者提出了第一个实时的自适应立体匹配深度网络，并在heterogeneous 数据集上做了验证。

方法概括：

MADNet - Modularly ADaptive Network

作者提出的 Modularly ADaptive Network (MADNet)具有推理快，精度高的特点，该网络使用金字塔策略做密集的视差回归。模块化结构如图1所示：

2019cvpr oral | 实时自适应立体匹配

图1

从图1我们可以看到总共由6个blocks产生features，记为 2019cvpr oral | 实时自适应立体匹配，分辨率分别从1/2到1/64递减，特征通道数分别为16，32，64，96，128，192. 作者将左右图的f6特征送入correlation layer得到一个raw matching costs。之后，作者用了一个由5个3x3conv组成的decode模块将分辨率按照128，128，96，64，1 恢复到1个channel。然后， 2019cvpr oral | 实时自适应立体匹配经过双线性上采样到level5，用于在计算相关性之前将右特征向左扭曲，并作为D5的输入。根据作者的设计，从开始，之后的解码器目标是改进和优化来自低分辨率上采样放大的视差。作者根据较低分辨率的视差预测所对齐的原始左右特征之间的相关得分引导网络进行进一步优化处理。这个过程在1/4分辨率下被重复进行，作者在1/4分辨率下用了3x3空洞卷积分别含有128，128，128，96，64，32，1 channels，空洞因子分别为1，2，4，8，16，1，1。

madnet具有推理速度快，精度高的特点。使用1080Ti GPU，MANET网在KITTI分辨率下运行在约40 fps，并且可以在15 FPS上与全背支撑进行在线自适应学习。

MAD - Modular ADaptation

模型开启在线自适应学习后，运行速度为15FPS，这个速度仍然不能满足一些应用场景。一种简单的提速方法是冻结一部分网络，但是作者也经过实验证明了，冻结网络部分层后，模型自适应能力不足以满足实际应用需求。

作者设计了一种Modular ADaptation (MAD)模块，针对MADNET做的模块化改编，可扩展到任意多尺度推理网络。该方法将网络 2019cvpr oral | 实时自适应立体匹配分为p个非重叠部分，即N = [ ],每个M的最后一层输出一个视差预测。分解网络十分简单，将相同分辨率i的F，D分到一起，即 .通过将网络分割成多个子模块，子模块独立进行迭代，最后将预测结果汇总。这个操作，不但提升了推理速度，同时也使得整个网络都进行了迭代。