待完成.
论文地址
 官方源码

0. 摘要

该论文主要是提出AVOD(Aggregate View Object Detection)网络，多视角聚合数据实现无人驾驶场景下3D物体实时检测的网络。avod网络以由雷达点云数据生成的BEV map和RGB图像作为输入，特征提取并融合后经过子网络region proposal network(RPN)产生non-oriented region proposals，得到proposals对应的类别（object/background）和第一次regress得到的3D bounding box，将这些proposals送入子网络second stage detector network产生精确的有方向的3D bounding boxs，完成3D物体的定位与识别。网络结构如下图。
（动工中）论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation

1. 写在前面

该篇论文和mv3d一样都是多视角融合实现3D object detection。mv3d网络在小目标物体检测上表现不佳，本文弥补了这个不足，表现出更好的精度和速度。

2. 结构记录

A. BEV Feature Map Generation

从点云数据生成6-channel BEV map。
与mv3d类似，分辨率为0.1m，只选择范围[-40, 40]×[0, 70]×[0, 2.5]范围内点云。
将z平等分为5段，5channels包含高度信息，1channel包含整体密度信息。

B. The Feature Extractor

mv3d网络将2D上的以RPN为基础的Faster R-CNN技术运用到3D，以BEV feature map作为输入得到3D anchors，但这种方法在小目标物体检测上表现不佳。因为传统Faster R-CNN通过CNN进行特征提取的过程中多次降采样，小目标物体在BEV中占的像素点本来就少，8×（4×）降采样后很可能不被考虑，因此avod提出一种新奇的特征提取方式，借助FPN（feature pyramid networks）的想法，从点云输入和RGB图像得到全分辨率的feature map送入RPN网络。

（动工中）论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation
上图为特征提取器结构，论文中将特征提取分为encoder和decoder，encoder采用以VGG-16模型为基础修改后的模型，经过encoder后feature map分辨率由M×N×D变为（动工中）论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation 。虚线框中展示出decoder每层的操作包括通过conv-transpose操作上采样，与encoder中对应size的feature map连接，通过3×3的卷积操作融合两张feature maps，最终得到M×N×D（尺寸不变但表达能力更强）的feature map。

C. Multimodal Fusion Region Proposal Network

mv3d中仅以BEV作为输入运用RPN，本文提出特征融合的RPN，利用多模数据产生proposals。
anchors以6参数形式表达，中心点(tx, ty, tz)以及三个轴的尺寸(dx, dy, dz)。在BEV上以0.5米的间距采样(tx, ty)，tz由传感器与地面间的距离等因素决定，anchors的尺寸每个类不同，从训练样本中获取。
feature crops送入全连接层进行类别判定（object/background）和3D box regression。回归参数形式为(∆tx, ∆ty, ∆tz, ∆dx, ∆dy, ∆dz)，采用smooth L1 loss，类别判定采用交叉熵loss。
在BEV上通过判定anchors与ground truth的IoU分辨object/background，在BEV上采用2D NMS将top k proposals送入第二阶段检测网络。

Dimensionality Reduction Via 1×1 Convolutional

因为anchors的数量较多，RPN过程中需要大量的内存以及计算。将feature extractor得到的feature maps通过1×1卷积操作进行降维处理，这样减少RPN过程中大量的内存需求以及计算，加快速度。

Extracting Feature Crops Via Multiview Crop And Resize Operations

3D anchor在BEV和RGB图像对应的feature crop的size（分辨率）统一处理问题上，mv3d采用ROI pooling，而avod采用crop and resize操作。
每个3D anchor投影到BEV以及RGB获得两个rois，每个roi进行blinearly resized to 3×3提取feature crop。作者觉得这样维持了anchor在两个view中的纵横比，效果比传统Faster-RCNN中直接使用3×3卷积效果好。

D. Second Stage Detection Network

融合后的feature crops通过三层全连接层得到类别、bounding box、方向的输出。

Crop And Resize

鉴于proposals的数量远小于anchors，在这个阶段采用原始的（高维）feature map。
resize to 7×7。
element-wise mean operation 进行融合。

3D Bounding Box Encoding

mv3d中提出8 corner bounding box 编码方式，本文提出4 corner+2 height offset方式（如下图），利用3D矩形框顶点对齐的几何限制减少参数并利用物体与ground plane的偏移，希望得到更精确的定位。
因此这阶段的回归形式为(∆x1…∆x4,∆y1…∆y4, ∆h1, ∆h2)
实现中的ground plane参数为4个系数，ax+by+cz+d=0决定平面，通过系数和点坐标判断。

（动工中）论文梳理 —— Joint 3D Proposal Generation and Object Detection from View Aggregation

Explicit Orientation Vector Regression

关于3D bounding box方向的确定，mv3d采用估计框的长边的方向，然而这样存在问题，比如行人的方向就不满足长边的规则，而且这样得到的方向可能与实际方向有±π的偏差。
avod中采用regressed orientation vector以及计算(xθ, yθ) = (cos(θ), sin(θ))使得 θ ∈ [−π， π]可以由BEV平面的唯一的单位向量表示。
每个bounding box有四个可能的朝向，选取离regressed orientation vecto最近的朝向。

Loss

Similar to the RPN, we employ a multi-task loss combining two Smooth L1 losses for the bounding box and orientation vector regression tasks, and a cross-entropy loss for the classification task.