Range RCNN论文阅读-条理性解析

Range RCNN: Towards Fast and Accurate 3D Object Detection with Range Image Representation论文阅读解析

论文链接:https://arxiv.org/pdf/2009.00206.pdf

1.简介

近年来,三维目标检测在许多领域越来越受关注,不同于二维目标检测,三维目标检测因为增加了深度信息的要求,仍存在较大的挑战,基于点云的方法可以较好的解决这一点,但点云的不规则性和稀疏性本身,为点云的数据处理带来了挑战。
现有的方法一般分为两类:基于网格的方法和基于点的方法,基于网格又可以分为基于3D体素以及2D鸟瞰图。

基于网格的方法会丢失点云信息,基于点的方法计算量大,总的来说,这两种方法都不能在高效计算的情况下获得所有的原始信息来实现特征提取。

范围图像是激光雷达的原始表示形式,它保留了所有原始信息,不同于常用的两种方法,范围图像是密集和紧凑的,可以很好的被2D卷积利用并且避免因为稀疏性带来的接收场不确定性问题。
但范围图像有两个明显的缺点,所以一般不会使用这种表示形式。
1)大的尺度变化不利于决定锚框尺寸
2)不同目标存在遮挡
(2D鸟瞰图不存在这两个问题)

因此,本文基于范围图像提出一种新颖高效的三维目标检测框架命名为RangeRCNN,提出PV-PV-BEV(Range View to Point View to Bird’s Eye View)模块将特征从范围图像转换为鸟瞰图
(这一点是论文核心亮点,不同于直接投影为鸟瞰图,先通过范围图像提取特征,避免了信息丢失,得到特征后,转换为鸟瞰图,避免了目标遮挡)

2.方法
Range RCNN论文阅读-条理性解析
范围图像经过编解码提取特征,然后将提取到的特征根据范围图像像素点坐标转化为点再投影到鸟瞰图上,经过RPN得到三维区域建议,并通过3D RoI 池化模块将其从三维拉伸到一维,输入到全连接层进行分类回归。

A.范围图像骨架网
KITTI数据集上只提供了点云数据,因此需要将其转化为范围图像,公式为:
Range RCNN论文阅读-条理性解析
其中,(x,y,z)是点的三维坐标,(u,v)是范围图像内的像素坐标。
r是点的范围,w,h是预设的范围图像大小,f是雷达传感器的垂直视野。
对于每一个点,将其范围、坐标和密度编码作为输入。
范围图像带来了尺度变化问题,在不同的距离下,目标尺寸会受到不同的影响,为了更好适应不同尺度并且获得一个更复杂的接收场,在残差模块中增加了空洞卷积。

空洞卷积是在标准卷积的基础上注入空洞,来增加感受野,通过膨胀率来控制卷积核间隔,下图说明了空洞卷积和标准卷积的区别。

Range RCNN论文阅读-条理性解析
Range RCNN论文阅读-条理性解析
编码过程:
1)使用1x1卷积提取特征
2)3个具有不同膨胀率的3x3卷积
3)通过1x1卷积将三个空洞卷积分支连接起来融合特征
4)drouout、池化操作进行下采样
解码过程比较类似,只是换成双线性插值进行上采样
具体结构如下图:
Range RCNN论文阅读-条理性解析

B.PV-PV-BEV
范围图像表示比较适合用2D卷积提取特征,但是因为大的尺度变化不利于锚框确定,一些目标还存在很严重的遮挡问题,因此,将特征通过转化为点云形式并投影为鸟瞰图来进行后续操作。

C.3D RoI 池化
基于鸟瞰图,通过RPN网络生成3D建议,为了更好利用三维空间信息,提出3D RoI池化,建议被分割为小的网格,不同网格具有清晰的空间关系,高度信息可以被编码到这些网格中。最后将其拉伸为一维,通过全连接层实现分类回归。具体网络结构如下图:
Range RCNN论文阅读-条理性解析损失函数就是常规的两阶段方法设计,这里就不再详述。
最后,在KITTI数据集进行了验证,精度基本达到了最高水平,证明了使用范围图像作为点云表示形式的可行性与潜力。
Range RCNN论文阅读-条理性解析