点云目标检测+图卷积

LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

CVPR 2020


摘要

现有的基于LiDAR的三维目标检测大多集中在单帧检测上,而忽略了连续点云帧的时空信息。本文提出了一种基于点云序列的端到端在线三维视频目标检测方法。该模型包括空间特征编码组件和时空特征聚合组件。在前一部分中,提出了一种新的支柱消息传递网络(PMPNet)对每个离散点云帧进行编码。该方法通过迭代消息传递,自适应地从相邻节点中收集柱节点的信息,有效地扩大了特征的感受野范围。在后一部分中,提出了一个注意的时空变换器GRU(AST-GRU)来聚合时空信息,这增强了传统的ConvGRU的注意记忆选通机制。AST-GRU包含一个空间变换器注意(STA)模块和一个时间变换器注意(TTA)模块,分别强调前景对象和对齐动态对象。实验结果表明,所提出的三维视频目标检测器在大规模nuScenes基准上达到了最先进的性能。

问题

流行的单帧3D对象检测器倾向于voxel或pillar grids,然后使用卷积神经网络(CNN)堆栈提取点云特征。但是,这些方法的潜在问题在于它们仅关注局部聚集的特征,使用PointNet 1为separate voxel或pillars提取特征。 为了进一步扩大感受野,它们必须重复应用stride或pooling,这将导致空间信息的丢失。

创新

(1)提出了一种新颖的基于图的网络,称为Pillar Message Passing Network(PMPNet),该网络将非空的pillar视为图节点,旁边节点融合特征的方式来扩大感受野。因此PMPNet通过在K-NNgraph中采用迭代的方式可以深度挖掘不同pillar节点之间的相对关系,该网络是在同一帧的点云中进行空间的特征融合。

(2)PMPnet仅仅在同一帧的空间中提取到感受野更多的特征信息,然后将这些单帧的特征在作者设计的第二个网络结构AST-GRU中进行融合,作者设计的AST-GRU则是把该工作通过一个注意力记忆门(attentive memory gating)机制来捕获连续帧点云之间的依赖关系来扩展到三维点云中处理中。

数据集

  • nuScenes

网络结构

点云目标检测+图卷积

  • PMPnet提取每一帧的空间特征
  • 连续帧的的特征被送入AST-GRU,用attentive memory gating来收集时空信息
    点云目标检测+图卷积
  • 通过比较不同pillar之间的质心距离来构建(k-NN)图。
  • 初始化:PFN的实现是对pillar内的每个点上应用完全连接的层,然后通过channel-wise maximum operation汇总所有点的特征。 初始节点状态h0i是局部聚合的特征,仅包含特定pillar内的点信息。
  • 信息传播迭代:节点聚集相邻节点的信息,计算了当前节点与所有相邻节点的成对关系后,总结收到的信息。用GRU更新状态。
  • 传播之后用2D CNN学习特征。
    点云目标检测+图卷积
  • 在俯视图下,前景物体仅仅只占一小部分区域,背景点占据了大部分的区域,这会使得在迭代过程中,背景噪声会越来越大,因此作者采用了空间注意力模块(STA)来缓解背景噪声并强调前景物体。
  • 更新memory时,旧的空间特征和新的输入之间存在没配准的问题,如果是静态物体,可以采用ego-pose信息配准,但是具有很大运动幅度的动态物体则是不能的,为了解决这问题,作者采用了短暂注意力机制(TTA)模块,自适应的捕捉连续帧中的运动关系。

结果

点云目标检测+图卷积

点云目标检测+图卷积

参考文献

* [1] [Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas.Pointnet: Deep learning on point sets for 3d classification and segmentation. In CVPR, 2017.](https://arxiv.org/abs/1612.00593)

链接