IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

标题:IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving

作者:Wanli Peng∗ Hao Pan∗ He Liu Yi Sun†Dalian

机构:University of Technology, China

来源:CVPR 2020

编译 : 万应才

审核:wyc

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

摘要

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

大家好,今天为大家带来的文章是IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving

三维目标检测是自主驾驶和虚拟现实中一项重要的场景理解任务。基于激光雷达技术的方法效率比较高,但是激光雷达价格昂贵。考虑到更一般的场景,在三维数据集中没有激光雷达数据的情况下,我们提出了一种基于立体视觉的三维目标检测方法,该方法不依赖于激光雷达数据作为输入,也不依赖于作为训练的监督,而只以带有相应标注的三维边界框的RGB图像作为训练数据。由于目标的深度估计是影响三维目标检测性能的关键因素,本文介绍了一个实例深度提取(IDA)模块,该模块通过实例深度感知、视差自适应和匹配代价重加权,准确地预测出三维包围盒中心的深度。此外,我们的模型是一个端到端的学习框架,不需要多阶段或后处理算法。我们对KITTI基准进行了详细的实验,并与现有的基于图像的方法进行了比较,取得了令人印象深刻的改进。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

背景与贡献

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

单目生成双目

随着最近几年单目深度的发展,从单张图像预测深度的精度越来越高,但是相比双目匹配算法(stereo match)依然有差距。作者提出一种单目生成双目图像然后用双目匹配算法。单目生成双目方法原理是通过预测的单目深度设置一个虚拟的基线然后将原图生成为双目的另一图像。

我们作出以下贡献:

1.我们提出了一个基于双目的三维物体检测端到端学习框架,该框架不依赖于深度图像作为输入或训练,也不需要多阶段或后处理算法。

2.我们引入了实例深度感知(IDA)模块,该模块通过实例深度感知、视差自适应和匹配成本重加权,准确预测三维边界框中心的深度,从而提高了三维对象检测的准确性。

3.我们提供了KITTI 3D数据集[7]上的详细实验,与没有深度地图监督的基于双目的方法相比,达到了最先进的性能。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

算法流程

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

1.整体结构

本文提出了一种立体三维物体检测方法,其训练数据仅为带有相应标注的三维边界盒的RGB图像,不以激光雷达获取的深度作为输入,也不作为中间监督。本文提出方法不用手工设计立体视觉算法的任何步骤,而是使用深度学习学习从图像对到物体三维边界盒的端到端映射。我们认识到三维物体检测误差完全来自于三维边界盒中心深度估计z的误差,而不是将机器学习架构构建为一个黑盒子,因此我们单独设计一个回归模型来获得实例深度。在本文中,三维边界盒中心的坐标z也称为实例深度。此外,我们通过实例深度感知、视差适应和匹配代价重估来指导目标深度估计的结构设计。因此,我们学习了一种有效的实例深度感知三维物体检测模型(IDA-3D)。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

图1 整体结构 本文提出的IDA-3D概述。Top: Stereo RPN以一对左右图像作为输入和输出对应的左右建议对。通过立体RPN,预测三维包围盒的位置、尺寸和方向。Bottom: Instance-depth-aware模块构建一个4D cost volume,并执行3DCNN来估算一个3D边框中心的深度。

2. 方法

本文首先提取一条感兴趣的区域(RoI)为每一个对象在左右图像的立体的RPN模块受[14],其目的是为了避免复杂的左派和右派之间的所有像素匹配图像和消除不利影响的背景对象检测。stereo RPN为左右图像中大小和位置相同的每个对象创建一个联合RoI,以确保每对RoI的起始点。在应用RoIAlign[8]分别在左和右特征图,左边和右边RoI特征然后连接和送入立体声回归网络预测的位置,方向和尺寸的3 d边界框,分别在3 d边界框的位置可以用其中心位置(x, y, z)。自3 d对象的中心有一个大动态范围的深度及其偏差占大多数的差异3 d对象检测,在本文中,我们单独设计了IDA模块来获取一个三维边界盒中心的深度,也称为实例深度。在立体回归网络中,我们还预测了二维边界盒作为推理时IDA模块的输入。

2.1 实例 Instance Disparity (Depth) Estimation

我们使用了两个连续的三维卷积层,每个层之后是一个三维最大池化层,以学习和执行从成本量中对特征表示的向下采样。由于视差与深度成反比,且均表示物体的位置,我们将视差转换为深度表示后,形成成本体积。依靠网络正则化,最终将3D CNN下采样的特征合并为3D box center的深度概率。将每个深度z按其归一化概率加权求和,最终得到三维盒中心的深度,如公式1所示,其中N为深度级别数,P (i)为归一化概率。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

图2 IDA模型的参数。D表示深度级别的数目。

2.3 Instance Disparity (Depth) Adaptation

以往的研究大多是对视差估计的精度进行优化。而对于相同视差误差,深度误差随距离呈二次增长。这意味着视差误差对远目标深度估计的影响大于近目标深度估计的影响。这是导致3D对象检测效果不佳的关键因素。为了使模型和损失函数更侧重于远处的目标,我们将成本量中的视差等级由均匀量化改变为非均匀量化,即目标距离越远,相邻两个视差等级之间的划分单元越小。这样,就可以更精确地估计一个遥远物体的深度。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

图3 偏差与深度的关系

2.4 Matching Cost Reweighting

为了惩罚不是对象实例唯一的深度级别,并提升具有高概率的深度级别,我们重新设置匹配代价的权重。权重分为两部分,第一部分(成本4 d所示的图1)4 d体积包装左派和右派之间的差异特征映射特征图在每个差距水平和第二部分(见图1中的3 dcnn) 3 dcnn用人机制的深度关注。带有这些残差feature map的4D体会使后续的3D CNN考虑到一定深度级别左右feature map的差异,细化深度估计,而视差注意机制则设置每个channel的权重ri。通过计算各视差上左右特征图的相关性得到的相关分数ri定义为:

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

2.5 3D Object Detection

我们设计了一个六平行的全连接网络,并以左右连接的RoI特征作为输入。在确定了实例的深度后,可以根据其投影计算出左摄像机坐标系中物体中心的坐标(x, y),其中(cu, cv)为摄像机中心,fu, fv为水平焦距和垂直焦距。从Eq. 5中可以看出,深度估计的结果会影响对三维盒中心水平和垂直位置的估计,这说明深度估计在物体检测中起到了重要的作用。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

图4 目标导向与视角导向之间的关系

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

主要结果

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

表1 KITTI验证集上car类的APbev / AP3D (in %),其中S为输入双目图像对,M为输入单目图像。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

图5  在KITTI数据集中对几个场景的定量结果。第一行是ground truth 3D box和投影到图像平面的预测3D box。为了便于观察,我们还将检测结果显示在点云上。预测结果用黄色表示,地面真实值用蓝色表示。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

图 6不同视差量化策略的深度估计误差。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

 图7 匹配成本调整权重的改进。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

相关资源

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

Project: https://github.com/swords123/IDA-3D

点击阅读原文, 即可获取本文下载链接。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

▲长按加微信群或投稿

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测