LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

CVPR 2020

摘要

现有的基于LiDAR的三维目标检测大多集中在单帧检测上，而忽略了连续点云帧的时空信息。本文提出了一种基于点云序列的端到端在线三维视频目标检测方法。该模型包括空间特征编码组件和时空特征聚合组件。在前一部分中，提出了一种新的支柱消息传递网络（PMPNet）对每个离散点云帧进行编码。该方法通过迭代消息传递，自适应地从相邻节点中收集柱节点的信息，有效地扩大了特征的感受野范围。在后一部分中，提出了一个注意的时空变换器GRU（AST-GRU）来聚合时空信息，这增强了传统的ConvGRU的注意记忆选通机制。AST-GRU包含一个空间变换器注意（STA）模块和一个时间变换器注意（TTA）模块，分别强调前景对象和对齐动态对象。实验结果表明，所提出的三维视频目标检测器在大规模nuScenes基准上达到了最先进的性能。

问题

流行的单帧3D对象检测器倾向于voxel或pillar grids，然后使用卷积神经网络（CNN）堆栈提取点云特征。但是，这些方法的潜在问题在于它们仅关注局部聚集的特征，使用PointNet ¹为separate voxel或pillars提取特征。为了进一步扩大感受野，它们必须重复应用stride或pooling，这将导致空间信息的丢失。

创新

（1）提出了一种新颖的基于图的网络，称为Pillar Message Passing Network（PMPNet），该网络将非空的pillar视为图节点，旁边节点融合特征的方式来扩大感受野。因此PMPNet通过在K-NNgraph中采用迭代的方式可以深度挖掘不同pillar节点之间的相对关系，该网络是在同一帧的点云中进行空间的特征融合。

（2）PMPnet仅仅在同一帧的空间中提取到感受野更多的特征信息，然后将这些单帧的特征在作者设计的第二个网络结构AST-GRU中进行融合,作者设计的AST-GRU则是把该工作通过一个注意力记忆门（attentive memory gating）机制来捕获连续帧点云之间的依赖关系来扩展到三维点云中处理中。

数据集

nuScenes

网络结构

点云目标检测+图卷积

PMPnet提取每一帧的空间特征
连续帧的的特征被送入AST-GRU，用attentive memory gating来收集时空信息
通过比较不同pillar之间的质心距离来构建(k-NN)图。
初始化：PFN的实现是对pillar内的每个点上应用完全连接的层，然后通过channel-wise maximum operation汇总所有点的特征。初始节点状态h⁰_i是局部聚合的特征，仅包含特定pillar内的点信息。
信息传播迭代：节点聚集相邻节点的信息，计算了当前节点与所有相邻节点的成对关系后，总结收到的信息。用GRU更新状态。
传播之后用2D CNN学习特征。
在俯视图下，前景物体仅仅只占一小部分区域，背景点占据了大部分的区域，这会使得在迭代过程中，背景噪声会越来越大，因此作者采用了空间注意力模块（STA）来缓解背景噪声并强调前景物体。
更新memory时，旧的空间特征和新的输入之间存在没配准的问题，如果是静态物体，可以采用ego-pose信息配准，但是具有很大运动幅度的动态物体则是不能的，为了解决这问题，作者采用了短暂注意力机制（TTA）模块，自适应的捕捉连续帧中的运动关系。

结果

点云目标检测+图卷积

参考文献

* [1] [Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas.Pointnet: Deep learning on point sets for 3d classification and segmentation. In CVPR, 2017.](https://arxiv.org/abs/1612.00593)

链接

项目地址

点云目标检测+图卷积

LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

摘要

问题

创新

数据集

网络结构

结果

参考文献

链接

相关推荐