Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks

Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
下图Vote3Deep在KITTI上不可见点云的检测效果。

Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural NetworksVote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
本文方法:在原生的3D特征(native 3D representation)上执行一个稀疏卷积,接着是一个ReLU非线性,它返回一个新的稀疏3D特征。这个过程可以像传统CNN一样重复和叠加,输出层预测检测分数。用NMS对重复检测进行剪枝(3D中的NMS能够更好地处理彼此背后的对象,因为3D包围框的重叠小于它们的2D投影)。

本文为每个类假设一个固定大小的边界框,这消除了回归边界框大小的需要。我们根据训练集上的百分之95的地面真实边界框大小为每个类别选择3D边界框尺寸。
———————————————————————————————————————————————
在2D稀疏上投票过程(没有偏置):投票权重是通过在每个维度上翻转卷积权重得到的。投票过程只需要在每个非零的位置应用来计算相同的结果。Vote3Deep将投票过程应用于带有多个特征图的3D输入,而不是单一特征的2D网格。
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
该算法的基本思想是让每个非零输入特征向量根据滤波器的权值向其在输出层的周围格子投一组选票,这些选票由滤波器的感受野定义。投票权重是卷积核沿每个空间维度翻转获得的。最后的卷积结果是通过对每个输出单元的投票进行累加得到的

Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural NetworksVote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
稀疏卷积需要grid中的值不为0
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
中心点对称卷积
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural NetworksVote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural NetworksVote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural NetworksVote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
———————————————————————————————————————————————Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural NetworksVote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
此图表明,多层次堆叠比baseline要高,并且很重要的一点,增加了模型的复杂性,对精准性提高很大。这些较大的模型可能没有得到充分的正则化。另一种可能的解释是,3D数据的易用性使得即使是相对较小的模型也能捕捉到输入特征中的大部分变化,从而为解决任务提供信息。
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
由上图可知,kernel-size大小和filter个数并不会很大地提高精度,所以本文选择8个3x3x3的kernel。因为汽车的大小和行人在真是世界中大小不一样,所以汽车需要一个大的kernel去获得大的感受野,但是因为是并行部署的,所以检测速度最好一样,所以汽车用的model-b,别的用的model-d,精度如图所示。Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
Vote3Deep是最好的,相较于其他两个模型Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
我们还将Vote3Deep与表中同时使用点云和图像数据的方法进行了比较。自行车精度提升最大,原因可能是因为与行人和汽车相比,骑自行车的人在3D中拥有更独特的形状,而行人和汽车更容易被认为是与杆或垂直面混淆Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
我们逐帧检测,200帧取均值和标准差,l1能有效的提升检测速度,但是数值太大,训练直接None了。car的速度提升最快,本文预测,中间层数量的减少和更大的感受野都有助于模型学习更稀疏但仍然具有高信息量。
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks