【论文概述】F-ConvNet (2019)
论文信息
题目:Frustum ConvNet: Sliding Frustums to Aggregate Local Point-Wise Features for Amodal 3D Object Detection
问题导入
利用成熟的 2D 检测技术辅助解决 3D 检测问题,此前方法多为将点云转为 2D 图像如 BEV等,或者体素化;这些方法会丢失关键的 3D 信息;借鉴 F-PointNet 的融合思想,借助 2D 候选区域生成视锥体,但具体生成方式不太一样。
总体思路
如上图所示,这是视锥体生成过程。对于 2D 图像的每一个 region proposal 都形成一个视锥体,再沿视锥体轴以相同步长滑动生成一组视锥体
如上图所示,首先,将每个视锥体内 point-wise 特征利用 PointNet 聚合为 frustum-level 特征;其次,将这些特征排列为 2D 特征图送入 FCN 进行特征提取;最后,利用检测头进行有向 3D 框的端到端估计。
论文效果
如上图所示,这是定性分析,KITTI benchmark,绿框表示汽车,橘框表示行人,黄框表示骑行者。
如上图所示,这是定量分析,KITTI 测试集上,IOU 取 0.7, AP 可达76.51。
如上图所示,这是视锥体特征提取网络对比实验,后期可以试试 PointNet++。
如上图所示,这是视锥体生成过程中变量的取值对比,分别是视锥体滑动的步长以及视锥体的高,这表明需要不同尺度的视锥体。
如上图所示,这是焦点损失与细化的对比实验,这表明加入这两个 tricks 是有效果的。
总结
这是 F-PointNet 的改进版本,实现了端到端检测,解决了前者最终估计依赖于过少的前景点,容易误分割;但本质上仍是级联方案,过于依赖 2D region proposal 的结果。