【论文概述】F-ConvNet (2019)

论文信息

题目:Frustum ConvNet: Sliding Frustums to Aggregate Local Point-Wise Features for Amodal 3D Object Detection

论文链接

代码链接

问题导入

利用成熟的 2D 检测技术辅助解决 3D 检测问题,此前方法多为将点云转为 2D 图像如 BEV等,或者体素化;这些方法会丢失关键的 3D 信息;借鉴 F-PointNet 的融合思想,借助 2D 候选区域生成视锥体,但具体生成方式不太一样。

总体思路

【论文概述】F-ConvNet (2019)
如上图所示,这是视锥体生成过程。对于 2D 图像的每一个 region proposal 都形成一个视锥体,再沿视锥体轴以相同步长滑动生成一组视锥体
【论文概述】F-ConvNet (2019)
如上图所示,首先,将每个视锥体内 point-wise 特征利用 PointNet 聚合为 frustum-level 特征;其次,将这些特征排列为 2D 特征图送入 FCN 进行特征提取;最后,利用检测头进行有向 3D 框的端到端估计。

论文效果

【论文概述】F-ConvNet (2019)
如上图所示,这是定性分析,KITTI benchmark,绿框表示汽车,橘框表示行人,黄框表示骑行者。
【论文概述】F-ConvNet (2019)
如上图所示,这是定量分析,KITTI 测试集上,IOU 取 0.7, AP 可达76.51。
【论文概述】F-ConvNet (2019)
如上图所示,这是视锥体特征提取网络对比实验,后期可以试试 PointNet++。
【论文概述】F-ConvNet (2019)
如上图所示,这是视锥体生成过程中变量的取值对比,分别是视锥体滑动的步长以及视锥体的高,这表明需要不同尺度的视锥体。
【论文概述】F-ConvNet (2019)
如上图所示,这是焦点损失与细化的对比实验,这表明加入这两个 tricks 是有效果的。

总结

这是 F-PointNet 的改进版本,实现了端到端检测,解决了前者最终估计依赖于过少的前景点,容易误分割;但本质上仍是级联方案,过于依赖 2D region proposal 的结果。