2019cvpr oral | 实时自适应立体匹配

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

2019cvpr oral | 实时自适应立体匹配

作者:红薯好吃

https://zhuanlan.zhihu.com/p/83411945

本文仅做学术分享,如有侵权,请联系删除。

论文题目:Real-time self-adaptive deep stereo

论文摘要:以往的基于深度学习的模型往往基于某一特定的数据集进行训练,当在不同数据分布的环境下测试时,精度就大幅下降,这使得模型难以应用于实际。作者提出了一个无监督的在线自适应目标域的深度立体匹配模型。同时,作者对模型进行了轻量化处理,使得模型能够实时推理。作者提出了第一个实时的自适应立体匹配深度网络,并在heterogeneous 数据集上做了验证。

方法概括:

MADNet - Modularly ADaptive Network

作者提出的 Modularly ADaptive Network (MADNet)具有推理快,精度高的特点,该网络使用金字塔策略做密集的视差回归。模块化结构如图1所示:

2019cvpr oral | 实时自适应立体匹配

图1

从图1我们可以看到总共由6个blocks产生features,记为 2019cvpr oral | 实时自适应立体匹配 ,分辨率分别从1/2到1/64递减,特征通道数分别为16,32,64,96,128,192. 作者将左右图的f6特征送入correlation layer得到一个raw matching costs。之后,作者用了一个由5个3x3conv组成的decode模块 2019cvpr oral | 实时自适应立体匹配 将分辨率按照128,128,96,64,1 恢复到1个channel。然后, 2019cvpr oral | 实时自适应立体匹配 经过双线性上采样到level5,用于在计算相关性之前将右特征向左扭曲,并作为D5的输入。根据作者的设计,从 2019cvpr oral | 实时自适应立体匹配 开始,之后的解码器 2019cvpr oral | 实时自适应立体匹配 目标是改进和优化来自低分辨率上采样放大的视差。作者根据较低分辨率的视差预测所对齐的原始左右特征之间的相关得分引导网络进行进一步优化处理。这个过程在1/4分辨率下被重复进行,作者在1/4分辨率下用了3x3空洞卷积分别含有128,128,128,96,64,32,1 channels,空洞因子分别为1,2,4,8,16,1,1。

madnet具有推理速度快,精度高的特点。使用1080Ti GPU,MANET网在KITTI分辨率下运行在约40 fps,并且可以在15 FPS上与全背支撑进行在线自适应学习。

MAD - Modular ADaptation

模型开启在线自适应学习后,运行速度为15FPS,这个速度仍然不能满足一些应用场景。一种简单的提速方法是冻结一部分网络,但是作者也经过实验证明了,冻结网络部分层后,模型自适应能力不足以满足实际应用需求。

作者设计了一种Modular ADaptation (MAD)模块,针对MADNET做的模块化改编,可扩展到任意多尺度推理网络。该方法将网络 2019cvpr oral | 实时自适应立体匹配 分为p个非重叠部分,即N = [ 2019cvpr oral | 实时自适应立体匹配 ],每个M的最后一层输出一个视差预测 2019cvpr oral | 实时自适应立体匹配 。分解网络十分简单,将相同分辨率i的F,D分到一起,即 2019cvpr oral | 实时自适应立体匹配 .通过将网络分割成多个子模块,子模块独立进行迭代,最后将预测结果汇总。这个操作,不但提升了推理速度,同时也使得整个网络都进行了迭代。

Reward/punishment selection

作者发现加入奖励/惩罚制度,模型性能进一步提升。首先,作者创建一个H含有p个部分(即p个子模块),迭代过程中的参数由公式1得到

2019cvpr oral | 实时自适应立体匹配

通过softmax,对每个子模块归一化权重。在下一次参数 2019cvpr oral | 实时自适应立体匹配 更新前,文中先更新H,这个操作增加了 2019cvpr oral | 实时自适应立体匹配 的权重。更新H的过程如公式(2)(3)(4)所示:

2019cvpr oral | 实时自适应立体匹配

2019cvpr oral | 实时自适应立体匹配

2019cvpr oral | 实时自适应立体匹配

整体过程如图2所示,图2展示了在t,t+2时间段,histogram H,按照上述机制,把重要性从M3向M4转移的例子。

2019cvpr oral | 实时自适应立体匹配

图2

实验结果

表一可以看出MADNet具有较快的推理速度

2019cvpr oral | 实时自适应立体匹配

表1

2019cvpr oral | 实时自适应立体匹配

表2

从表2可以看出Adapt操作对精度提升极为明显,MAD模块的引入在稍微损失精度情况下,精度也比较接近Full Adapt的精度,此外具有很快的推理速度。

推荐阅读

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

2019cvpr oral | 实时自适应立体匹配

▲长按加微信群或投稿

2019cvpr oral | 实时自适应立体匹配

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

2019cvpr oral | 实时自适应立体匹配

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题