2019cvpr oral | 实时自适应立体匹配
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者:红薯好吃
https://zhuanlan.zhihu.com/p/83411945
本文仅做学术分享,如有侵权,请联系删除。
论文题目:Real-time self-adaptive deep stereo
论文摘要:以往的基于深度学习的模型往往基于某一特定的数据集进行训练,当在不同数据分布的环境下测试时,精度就大幅下降,这使得模型难以应用于实际。作者提出了一个无监督的在线自适应目标域的深度立体匹配模型。同时,作者对模型进行了轻量化处理,使得模型能够实时推理。作者提出了第一个实时的自适应立体匹配深度网络,并在heterogeneous 数据集上做了验证。
方法概括:
MADNet - Modularly ADaptive Network
作者提出的 Modularly ADaptive Network (MADNet)具有推理快,精度高的特点,该网络使用金字塔策略做密集的视差回归。模块化结构如图1所示:
图1
从图1我们可以看到总共由6个blocks产生features,记为 ,分辨率分别从1/2到1/64递减,特征通道数分别为16,32,64,96,128,192. 作者将左右图的f6特征送入correlation layer得到一个raw matching costs。之后,作者用了一个由5个3x3conv组成的decode模块
将分辨率按照128,128,96,64,1 恢复到1个channel。然后,
经过双线性上采样到level5,用于在计算相关性之前将右特征向左扭曲,并作为D5的输入。根据作者的设计,从
开始,之后的解码器
目标是改进和优化来自低分辨率上采样放大的视差。作者根据较低分辨率的视差预测所对齐的原始左右特征之间的相关得分引导网络进行进一步优化处理。这个过程在1/4分辨率下被重复进行,作者在1/4分辨率下用了3x3空洞卷积分别含有128,128,128,96,64,32,1 channels,空洞因子分别为1,2,4,8,16,1,1。
madnet具有推理速度快,精度高的特点。使用1080Ti GPU,MANET网在KITTI分辨率下运行在约40 fps,并且可以在15 FPS上与全背支撑进行在线自适应学习。
MAD - Modular ADaptation
模型开启在线自适应学习后,运行速度为15FPS,这个速度仍然不能满足一些应用场景。一种简单的提速方法是冻结一部分网络,但是作者也经过实验证明了,冻结网络部分层后,模型自适应能力不足以满足实际应用需求。
作者设计了一种Modular ADaptation (MAD)模块,针对MADNET做的模块化改编,可扩展到任意多尺度推理网络。该方法将网络 分为p个非重叠部分,即N = [
],每个M的最后一层输出一个视差预测
。分解网络十分简单,将相同分辨率i的F,D分到一起,即
.通过将网络分割成多个子模块,子模块独立进行迭代,最后将预测结果汇总。这个操作,不但提升了推理速度,同时也使得整个网络都进行了迭代。
Reward/punishment selection
作者发现加入奖励/惩罚制度,模型性能进一步提升。首先,作者创建一个H含有p个部分(即p个子模块),迭代过程中的参数由公式1得到
通过softmax,对每个子模块归一化权重。在下一次参数 更新前,文中先更新H,这个操作增加了
的权重。更新H的过程如公式(2)(3)(4)所示:
整体过程如图2所示,图2展示了在t,t+2时间段,histogram H,按照上述机制,把重要性从M3向M4转移的例子。
图2
实验结果
表一可以看出MADNet具有较快的推理速度
表1
表2
从表2可以看出Adapt操作对精度提升极为明显,MAD模块的引入在稍微损失精度情况下,精度也比较接近Full Adapt的精度,此外具有很快的推理速度。