Triangulation Learning Network: from Monocular to Stereo 3D Object Detection

论文链接:https://arxiv.org/abs/1906.01193

代码链接:https://github.com/Zengyi-Qin/TLNet

本文观点:

  1. 虽然基于深度学习的立体匹配已经做了大量的工作,但他们主要关注的是像素级而不是物体级。而且通过适当地放置三维锚点和扩展区域建议网络,可以仅使用单目图像获得类似的结果。
  2. 像素级别上匹配在计算上是昂贵的和耗时的,为了避免这样的计算,并充分利用立体信息进行三维目标检测,本文提出以三维锚点为参考,通过可学习的三角剖分法在正向过程中检测和定位物体。

目的:

    从立体图像检测 3D 目标的关键挑战是如何有效利用立体视觉信息。与以前像素级深度图的估计方法不同,此方法采用 3D 锚框(anchors)来显式构造立体图像 ROI 之间的目标级对应关系,而深度神经网络会学习检测 3D 空间的目标,并三角化其结构。

贡献:

    提出了立体三角剖分学习网络 (TLNet) 用于从立体图像中检测三维物体,它不需要计算象素级深度图,可以很容易地集成到基线单目探测器中。

  1. 一个固体基线 3D 检测器,只需要一个单目图像作为输入,它的性能可与最先进的立体法相媲美。
  2. 利用立体图像的几何相关性来定位目标 3D 物体的三角化学习网络,在挑战 KITTI 数据集上方面明显优于基线模型。
  3. 一种特征重估策略,增强了特定于视图的 RoI 特征的信息通道,通过将网络注意力偏向于一个物体的关键部分,有利于三角学习。

论述:

  1. 与本文最相关的方法是使用立体图像进行目标检测 3DOP。但是,3DOP 直接依赖于由图像对计算得到的视差图,导致计算代价高,在较远的区域估计不精确。本文网络不需要计算像素级的视差图。相反,它学会从左右 RoI 来三角定位目标。
  2. 输入图像 I 被划分为一个 Gx × Gy 网格,其中每个单元格预测其目标性。输出表示单元格被目标物体的 2D 投影包围的可能性有多大。在训练中,首先计算ground truth 3D 框的 2D 投影中心,并计算它们到 Gx × Gy 网格中所有单元格的最小欧氏距离。距离小于其宽度的 1.8 倍的单元格被认为是前景。
  3. 为了提高小物体的性能,利用特征金字塔,将特征映射到原始分辨率。
  4. 所有的权重都由 Xavier 初始化器初始化,不使用预先训练的权重。模型参数采用 L2 正则化,衰减率为 5e-3。
  5. 其关键思想是利用三维锚点来构建立体图像中投影之间的几何对应关系,从而在正向传递过程中学习三角定位目标物体。还介绍了一种有效的信道重加权方法来增强信息特征和减弱噪声信号。

网络结构:

Triangulation Learning Network: from Monocular to Stereo 3D Object Detection

    基线单目网络以蓝色背景表示,通过复制基线并进一步与 TLNet 集成,可以很容易地扩展到立体输入。

Triangulation Learning Network: from Monocular to Stereo 3D Object Detection
    基准网络中的多阶段 3D 提议和细化(proposal and refinement)机制类似于 Faster-RCNN。 在 3D RPN,来自前视图生成的潜在锚点投影到图像平面获得 RoI。 RoI Align 裁剪和调整特征图的 RoI 特征。 每个 RoI 特征裁剪都馈入任务特定的全连接层,预测 3D 目标度得分,并回归位置的偏移∆C =(∆cx,∆cy,∆cz)和尺寸偏移∆S =(∆h, ∆w,∆l)。采用非最大抑制(NMS)保留前K个提议,这里取K = 1024。

Triangulation Learning Network: from Monocular to Stereo 3D Object Detection
    将三维锚盒投影到立体图像上,得到一对 RoI。左侧 RoI 通过锚框与右侧 RoI 建立几何对应关系。两个 RoI 中都存在附近目标,但位置略有差异。TLNet 以 RoI 对作为输入,并利用 3D 锚点作为定位目标物体的参考。通过目标出现在左右 ROI 位置的位置差,可以看出目标框与锚框之间的空间方差。立体 3D 检测就是将三角测量学习网络集成到基线模型。三角化(triangulation)是从经典几何多视图中定位 3D 点,估计其位置、尺寸和朝向。该方法用 3D 锚框作为参考对目标(targets)进行三角化。如图是锚三角化示意图:通过将 3D 锚框投影到立体图像,可以获得一对 RoI;左 RoI 通过锚点框与右RoI 建立几何对应关系。 两个 RoI 中都存在附近的目标(target),但位置略有不同;TLNet 将 RoI 对作为输入,并利用 3D 锚作为参考来定位目标。

Triangulation Learning Network: from Monocular to Stereo 3D Object Detection
    如上图所示是 TLNet 的架构图:TLNet 输入一对有 RoI 通道和大小 Hroi × Wroi 的左右 RoI 特征 Fl 和 Fr,它们通过 RoI Align 将相同的3D锚点投影到左右框架而得;然后,用左右相关分(left-right coherence scores)重新加权每个通道;重新加权的特征用逐元求和融合在一起,并传递到任务特定的全连接层预测目标度和 3D 边框偏移量,即锚框和目标之间的 3D 几何差异。

Triangulation Learning Network: from Monocular to Stereo 3D Object Detection
Triangulation Learning Network: from Monocular to Stereo 3D Object Detection
    最后,上图是结果例子:橙色边框是检测结果,而绿色边框是真实值;结果表明,三角化学习方法减少漏检提高远处区域的深度预测性能。