论文笔记_S2D.46_2013-3DV_基于点融合的动态场景实时三维重建

基本情况

  • 题目:Real-time 3d reconstruction in dynamic scenes using point-based fusion
  • 出处:Keller M, Lefloch D, Lambers M, et al. Real-time 3d reconstruction in dynamic scenes using point-based fusion[C]//2013 International Conference on 3D Vision-3DV 2013. IEEE, 2013: 1-8.

摘要

实时或在线三维重建具有广泛的适用性,并由于消费者深度摄像机的可用性而受到进一步的关注。典型的方法是使用一个移动的传感器将深度测量数据累积到一个单一的模型中,然后不断地改进。设计这样的系统是一个复杂的平衡之间的重建质量,速度,空间尺度,和场景假设。现有的在线重建方法要么是缩小规模,以实现更高质量的小物体/场景重建。或者通过交易实时性能和/或质量来处理更大的场景,或者通过限制主动重建的边界。此外,许多系统假设一个静态场景,不能健壮地处理场景运动或重构,演变以反映场景变化。我们通过一种新的实时密集重建系统解决了这些限制,该系统与现有的在线方法质量相当,但在动态场景中支持额外的空间尺度和鲁棒性。我们的系统是围绕一个简单而扁平的基于点的表示而设计的,它直接与从距离/深度传感器获得的输入一起工作,没有在表示之间转换的开销。使用点使速度和内存效率,直接利用标准图形管道的所有核心操作;即相机姿态估计、数据关联、离群点去除、深度映射融合为单一去噪模型、动态对象检测与更新。我们通过定性和定量的结果得出结论,表明在不同尺度上对不同场景集的鲁棒跟踪和高质量的重建。

I 介绍和背景

随着廉价的深度相机(例如Microsoft Kinect,Asus Xtion或PMD CamBoard)的广泛使用,在线3D重建受到了广泛关注。与离线3D扫描方法相比,实时获得重建的功能打开了各种交互式应用程序,其中包括:增强现实(AR),其中现实世界的几何体可以与3D图形融合并实时呈现给用户;机器人的自主导航,以对其环境进行重构和快速响应;甚至在3D扫描期间向用户提供即时反馈。重建过程的第一步是基于三角测量或飞行时间(ToF)技术,使用常规2D图像序列(例如[19])或使用有源传感器(例如激光扫描仪或深度相机)获取深度测量值。与专注于从完整的3D点集进行重建[5,7]的方法不同,在线方法需要融合许多重叠的深度图成为不断完善的单个3D表示。通常,方法首先会找到深度图(数据关联)之间的对应关系,并注册或对齐深度图以估计传感器的自我运动[1,24]。融合方法通常涉及去除异常值,例如通过在深度图[16]之间进行可见性测试,观察*空间违规[2]或照片一致性[12](DTAM: Dense tracking and mapping in real-time),以及将度量合并到全局模型中,例如使用简单的加权平均[2]或更昂贵的空间正则化[25,12](Fast and high quality fusion of depth maps,2008)。最近的在线系统[6,11]通过采用Curless和Levoy [2]的体积融合方法获得了高质量的结果。这种方法支持增量更新,利用冗余样本,不进行拓扑假设,近似传感器不确定性,并使用简单的加权平均值进行融合。对于有源传感器,此方法可产生令人信服的结果[2、9、6、11]。缺点是在不同数据表示之间连续转换所需的计算开销:将基于点的输入转换为连续的隐式函数,在常规网格数据结构中离散化,然后使用昂贵的多边形化方法转换回(显式)形式[10]。 ]或raycasting [14]方法。以及使用规则的体素网格所施加的内存开销,该体素网格既表示空的空间又表示表面,因此极大地限制了重建体积的大小。这些内存限制导致了移动体积系统[17,23],该系统仍然在非常有限的体积上运行,但是随着传感器的移动,释放体素。或分层的体积数据结构[26],仅在空间范围方面仅获得有限的收益,就会引起额外的计算和数据结构复杂性。

除了体积方法,还探索了更简单的表示方法。高度图表示[3]与紧凑的数据结构一起使用,可实现可伸缩性,特别适合于对具有地板和墙壁大型建筑物进行建模,因为它们在高度图中显示为明显的不连续点。多层高度图支持重建更复杂的3D场景,例如阳台,门口和拱门[3]。虽然这些方法支持针对简单场景的表面数据压缩,但2.5D表示无法有效地对复杂3D环境建模。

基于点的表示更适合从深度/范围传感器获取的输入。 [18]使用基于点的方法和自定义结构的光传感器来演示在线在线3D扫描。在线模型渲染需要中间的体积数据结构。有趣的是,离线体积法[2]用于获得更高质量的最终输出,很好地突出了基于点的方法与体积法之间的计算和质量折衷。 [22]进一步迈出了一步,展示了使用更高分辨率的定制结构光相机,传感器漂移校正和更高质量的基于surfel的[15]渲染,对小物体的更高质量扫描。然而,这些系统专注于单个小物体扫描。此外,传感器产生的噪声比消费者深度相机要少(由于动态而不是固定的结构化光图案),从而使模型降噪的难度降低。

除了减少计算复杂度之外,基于点的方法还可以降低与体积(常规网格)方法相关的内存开销,只要合并了重叠的点即可。因此,此类方法已用于更大尺寸的重建中[4,20]。但是,就规模与速度和质量而言,明显的权衡变得显而易见。例如,[4]允许重建建筑物的整个楼层(支持环路闭合和束调整),但是帧速率受到限制(〜3 Hz),并且合并3D点的未优化冲浪图表示可能需要几秒钟的时间才能完成计算。 [20]使用多级surfel表示来实现交互速率(〜10 Hz),但需要中间八叉树表示,这限制了可伸缩性并增加了计算复杂性。

在本文中,我们提出了一种在线重建系统,该系统也基于平面的,基于点的表示而不是任何空间数据结构。一个关键的贡献是

  • 我们的系统具有高效的内存存储能力,支持空间扩展的重建,但没有牺牲重建质量或帧速率。

如我们将显示的,使用标准图形管线直接渲染表示而无需在多个表示之间进行转换的能力,使所有*操作得以有效实施,即相机姿态估计,数据关联,通过数据累积进行去噪和融合以及离群值去除。

一项核心技术贡献是

  • 利用一种非常类似于[2](3d reconstruction using an n-layer heightmap,2010)的融合方法,但同时将整个体素网格移除

尽管缺乏空间数据结构,我们的系统仍具有体积融合的许多优点,与以前的在线系统相比具有竞争性能和质量,可以随着时间的推移积累去噪的3D模型,从而利用冗余样本,模型测量不确定性并且不做任何拓扑假设。

我们方法的简单性使我们能够应对在线重建系统的另一个基本挑战:静态场景的假设。以前的大多数系统都做出了这种假设,或将动态内容视为异常值[18,22]。如果首先获取背景的静态预扫描,则只有KinectFusion [6]至少能够重建场景中的运动对象。取而代之的是,我们利用表示的即时性来设计一种方法,该方法不仅可以对场景中的动态对象进行鲁棒分割,从而大大提高了相机姿态估计的鲁棒性,而且还可以持续更新全局重建,而不管是否添加了对象或删除。我们的方法还能够检测运动物体何时变为静态或静止物体何时变为动态。在不牺牲实时性能的情况下,以与最新技术相当的质量来支持重建的能力,此外还增加了扩展的空间比例并支持动态场景,从而提供了超越先前工作的独特功能。我们以重建各种规模的静态和动态场景以及与相关系统进行实验比较的结果作为结论。

论文笔记_S2D.46_2013-3DV_基于点融合的动态场景实时三维重建

论文笔记_S2D.46_2013-3DV_基于点融合的动态场景实时三维重建

论文笔记_S2D.46_2013-3DV_基于点融合的动态场景实时三维重建