#每天一篇论文 263/365 MonoGRNet: A Geometric Reasoning Network for Monocular 3D ObjectLocalization

MonoGRNet:一种几何推测单目三维目标定位网络

原文

代码

提出了一种基于单目图像的amodal3D目标定位统一网络MonoGRNet。我们的核心思想是将三维定位问题分解成几个渐进的子任务,这些子任务只能用单目RGB数据来解决。该网络从二维图像平面的语义分钟开始,然后在三维空间进行几何推理。
本文提出在不计算像素级深度图的情况下,准确估计实例的三维中心深度。我们提出了一个新的实例级深度估计(IDE)模块,该模块探索深度特征映射的大接收域以获取粗略的实例深度,然后结合较高分辨率的早期特征来细化IDE。

本文提出一种能够使用单目RGB图像估计3D目标边界盒子的网络,作者使用对3D目标框内的RGB图像进行3D深度估计,代替了之前的pixel leve。并将估计的3D边框进行中心点回归。

#每天一篇论文 263/365 MonoGRNet: A Geometric Reasoning Network for Monocular 3D ObjectLocalization
给定一幅单目RGB图像,目标是在3D空间中定位特定类别的对象。目标对象由一个类标签和一个ABBox-3D来表示,该ABBox-3D限定了整个对象,而不考虑遮挡或截断。

2D-3D 边界检测

2D边界检测

二维检测模块是稳定特征学习的基本模块,同时也为后续的几何推理模块揭示感兴趣的区域。检测中心b和大小(w,h)包围ABBox-3D的投影的2D框B2d。
2D – 3D—Local 位置
#每天一篇论文 263/365 MonoGRNet: A Geometric Reasoning Network for Monocular 3D ObjectLocalization

3D边界检测

通过预测3D中心C的深度Zc和2D投影C来定位3D中心C。最后,基于局部特征,回归出相对于三维中心的局部角点O。总之,将ABBox-3D定位定义为估计每个感兴趣对象的以下参数:

实例深度检测

IDE子网估计ABBox-3D中心Zc的深度。给定特征图中从主干划分的网格G,每个网格单元G在距离阈值σ范围内预测最近实例的3D中心深度,考虑深度信息,即为单元分配更近实例
#每天一篇论文 263/365 MonoGRNet: A Geometric Reasoning Network for Monocular 3D ObjectLocalization
**深度估计网络
**
#每天一篇论文 263/365 MonoGRNet: A Geometric Reasoning Network for Monocular 3D ObjectLocalization

3D边框位置检测

该子网估计每个网格g中感兴趣对象的3D中心C=(Xc,Yc,Zc)的位置。如图2所示,由于透视变换,C的2D中心b和2D投影C不在同一位置。首先对投影c进行回归,然后根据估计的深度Zc将其投影到三维空间。

实验过程

网络选择

本文选择VGG-16(Matthew and Rob 2014)作为CNN主干网,但没有FC层。使用了KittiBox(Teichmann等人。2016)用于快速二维检测,并插入缓冲区以将三维推理分支与二维检测器分离。在IDE模块中,一种与DORN类似的深度编码器结构(Fu等人。(2018年)整合了本地和全局特征。在补充材料中提供了每一层的详细设置。由于并行的3D推理分支,总共有46个加权层,最深路径(即从输入到IDE输出)只有20个加权层。在我们的设计中,在所有的2D和3D模块中有770万个参数,大约是原始VGG-16中完全连接层的6.2%。

训练过程

VGG-16骨干网由ImageNet上的预训练权重初始化。在损失函数中,我们设置ω=α=β=10。将L2正则化应用于衰减率为1e-5的模型参数。首先使用Adam优化器(Kingma和Ba 2015)对2D检测器和主干进行120K次迭代训练。然后利用Adam优化器对三维推理模块IDE、三维定位和局部角点进行80K次迭代训练。最后,我们使用SGD以端到端的方式优化整个网络40K次迭代。批量设置为5,整个训练期间的学习率为1e-5。该网络使用NVidia Tesla P40的单个GPU进行训练。

#每天一篇论文 263/365 MonoGRNet: A Geometric Reasoning Network for Monocular 3D ObjectLocalization