(动工中)论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation

待完成.
论文地址
官方源码

0. 摘要

该论文主要是提出AVOD(Aggregate View Object Detection)网络,多视角聚合数据实现无人驾驶场景下3D物体实时检测的网络。avod网络以由雷达点云数据生成的BEV map和RGB图像作为输入,特征提取并融合后经过子网络region proposal network(RPN)产生non-oriented region proposals,得到proposals对应的类别(object/background)和第一次regress得到的3D bounding box,将这些proposals送入子网络second stage detector network产生精确的有方向的3D bounding boxs,完成3D物体的定位与识别。网络结构如下图。
(动工中)论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation

1. 写在前面

该篇论文和mv3d一样都是多视角融合实现3D object detection。mv3d网络在小目标物体检测上表现不佳,本文弥补了这个不足,表现出更好的精度和速度。

2. 结构记录

A. BEV Feature Map Generation

  • 从点云数据生成6-channel BEV map。
  • 与mv3d类似,分辨率为0.1m,只选择范围[-40, 40]×[0, 70]×[0, 2.5]范围内点云。
  • 将z平等分为5段,5channels包含高度信息,1channel包含整体密度信息。

B. The Feature Extractor

  • mv3d网络将2D上的以RPN为基础的Faster R-CNN技术运用到3D,以BEV feature map作为输入得到3D anchors,但这种方法在小目标物体检测上表现不佳。因为传统Faster R-CNN通过CNN进行特征提取的过程中多次降采样,小目标物体在BEV中占的像素点本来就少,8×(4×)降采样后很可能不被考虑,因此avod提出一种新奇的特征提取方式,借助FPN(feature pyramid networks)的想法,从点云输入和RGB图像得到全分辨率的feature map送入RPN网络。

(动工中)论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation
上图为特征提取器结构,论文中将特征提取分为encoder和decoder,encoder采用以VGG-16模型为基础修改后的模型,经过encoder后feature map分辨率由M×N×D变为(动工中)论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation。虚线框中展示出decoder每层的操作包括通过conv-transpose操作上采样,与encoder中对应size的feature map连接,通过3×3的卷积操作融合两张feature maps,最终得到M×N×D(尺寸不变但表达能力更强)的feature map。

C. Multimodal Fusion Region Proposal Network

  • mv3d中仅以BEV作为输入运用RPN,本文提出特征融合的RPN,利用多模数据产生proposals。
  • anchors以6参数形式表达,中心点(tx, ty, tz)以及三个轴的尺寸(dx, dy, dz)。在BEV上以0.5米的间距采样(tx, ty),tz由传感器与地面间的距离等因素决定,anchors的尺寸每个类不同,从训练样本中获取。
  • feature crops送入全连接层进行类别判定(object/background)和3D box regression。回归参数形式为(∆tx, ∆ty, ∆tz, ∆dx, ∆dy, ∆dz),采用smooth L1 loss,类别判定采用交叉熵loss。
  • 在BEV上通过判定anchors与ground truth的IoU分辨object/background,在BEV上采用2D NMS将top k proposals送入第二阶段检测网络。

Dimensionality Reduction Via 1×1 Convolutional

  • 因为anchors的数量较多,RPN过程中需要大量的内存以及计算。将feature extractor得到的feature maps通过1×1卷积操作进行降维处理,这样减少RPN过程中大量的内存需求以及计算,加快速度。

Extracting Feature Crops Via Multiview Crop And Resize Operations

  • 3D anchor在BEV和RGB图像对应的feature crop的size(分辨率)统一处理问题上,mv3d采用ROI pooling,而avod采用crop and resize操作。
  • 每个3D anchor投影到BEV以及RGB获得两个rois,每个roi进行blinearly resized to 3×3提取feature crop。作者觉得这样维持了anchor在两个view中的纵横比,效果比传统Faster-RCNN中直接使用3×3卷积效果好。

D. Second Stage Detection Network

  • 融合后的feature crops通过三层全连接层得到类别、bounding box、方向的输出。

Crop And Resize

  • 鉴于proposals的数量远小于anchors,在这个阶段采用原始的(高维)feature map。
  • resize to 7×7。
  • element-wise mean operation 进行融合。

3D Bounding Box Encoding

  • mv3d中提出8 corner bounding box 编码方式,本文提出4 corner+2 height offset方式(如下图), 利用3D矩形框顶点对齐的几何限制减少参数并利用物体与ground plane的偏移,希望得到更精确的定位。
  • 因此这阶段的回归形式为(∆x1…∆x4,∆y1…∆y4, ∆h1, ∆h2)
  • 实现中的ground plane参数为4个系数,ax+by+cz+d=0决定平面,通过系数和点坐标判断。

(动工中)论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation

Explicit Orientation Vector Regression

  • 关于3D bounding box方向的确定,mv3d采用估计框的长边的方向,然而这样存在问题,比如行人的方向就不满足长边的规则,而且这样得到的方向可能与实际方向有±π的偏差。
    (动工中)论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation
  • avod中采用regressed orientation vector以及计算(xθ, yθ) = (cos(θ), sin(θ))使得 θ ∈ [−π, π]可以由BEV平面的唯一的单位向量表示。
  • 每个bounding box有四个可能的朝向,选取离regressed orientation vecto最近的朝向。
    (动工中)论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation

Loss

Similar to the RPN, we employ a multi-task loss combining two Smooth L1 losses for the bounding box and orientation vector regression tasks, and a cross-entropy loss for the classification task.