论文《Multi-state objects depth acquisition based on binocular structured light》学习

(2019SCI一区)

Abstract

利用结构光进行三维深度感知因其鲁棒性、高精度和密度高而得到了广泛的研究和发展。目前的结构光技术在获取具有不同运动状态物体的场景深度图的同时,还存在着一个开放性的研究问题,即如何在保证高精度和高分辨率的前提下,获得具有不同运动状态物体的场景深度图。本文设计了一种多状态目标深度捕获的新算法。设计了一种基于正弦、散斑和线模式的投影模式。根据背景分割技术对前景目标进行分割,将具有不同运动状态的区域划分为静态、慢速或快速运动区域。然后利用不同的运动状态选择不同的模式解码方案。在实验中,我们成功地计算了多状态物体的深度。

1. Introduction

三维深度感知研究一直是一个重要而富有挑战性的研究课题,在物体识别、场景理解等领域有着广泛的应用。基于非接触测量方法的稠密深度采集技术受到了广泛的关注[2,3]。在实际应用中,场景中被检测到的目标可能有一个静态表,一个移动的人,或者两者都有。结构光研究的主要对象是场景中的静态和动态目标。

传统的编码方案不能满足多状态目标深度感知的需要。时间编码和空间编码是实现对静态目标和运动目标深度感知的两种主要技术。对于场景中的静态对象,通过常规的傅里叶变换轮廓术(FTP)获得高分辨率的深度信息[6,7]。对于运动目标的深度获取,采用随机散斑(RS)[8]和随机网格(RG)【9】方法来感知深度信息。

由于时间编码的投影图像随时间变化,采用[10]编码策略难以实现运动目标的三维测量。当一个物体在移动时,目前相机还无法捕捉到所有时间编码的模式。相反地,空间编码策略在测量移动对象方面是有利的。

空间编码方法可用于测量运动目标和静态目标[11,12],但空间编码方法的分辨率通常较低,因为被提取的原语占据了更多的像素[13,14]。此外,时间编码方法不适用于运动目标的深度感知[15,16]。我们的目标是获得高分辨率、高精度的多状态对象深度图。当被测物体速度较低时,利用一般的空间编码方案和快速拍摄装置可以获得深度信息。利用高速投影设备,如DMD[17]和高速采集摄像机,解决了在投影和采集[18]过程中出现的模糊问题。然而,当物体高速移动时,投影和获取中出现的模糊问题仍然存在:即使是快速的投影也无法赶上移动速度更快的物体[19]。如果运动目标的运动速度过快,这种快速投射和捕获的策略是可行的。即使去模糊算法得到了广泛的应用,模糊问题的实质也没有得到实质性的解决。对于高速运动目标,获得的深度精度是我们研究的目标。对于静态或低速运动目标,精度和分辨率都是本文研究的重点。当多状态目标存在于同一场景时,需要获取静态或低速运动目标[21]的高分辨率、高精度深度信息。同时,对于高速移动的目标[22],必须包含高精度的深度信息。在检测快速运动目标的深度信息时,不希望降低静态或低速目标的分辨率。

此外,不管运动目标的速度如何,运动目标都需要尽可能多的一次测量,因为向下采样导致的低分辨率问题是不可避免的。这种基于动态深度相机的方法受到生成深度图质量低的限制。在传统的结构光测量系统中,除了提取出的结构光模式外,颜色图上的信息被忽略。然而,彩色地图包含丰富的信息,这些信息经过深度地图优化以提高其准确性和分辨率。在一些平滑区域,利用彩色图像作为辅助引导来解决深度图像的欠采样问题。

本文提出了一种用于单场景多状态目标的双目结构光深度检测算法。深度感知的基本过程如图1所示。该算法嵌入了不同的结构光(正弦、RS、直线)模式。对于静态区域,采用FTP深度采集算法获取高分辨率、高精度的深度信息。对于低速运动区域,采用RS获取深度信息。在高速运动区域,利用模糊线结构光来计算精确的深度信息。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
在我们的研究中,由于运动模糊问题无法在快速拍摄设备上得到实质性的解决,因此结构化光系统中的传统相机和投影仪并没有被DMD和高速采集相机所取代。在我们的研究中,运动物体造成的运动模糊被应用而不是消除。一方面,基于运动模糊对不同速度目标区域进行分割;另一方面,通过计算模糊伪影宽度来估计超快速运动区域的深度信息。该算法在保持静态目标高分辨率的同时,准确地获取了运动目标的深度信息。

2. Related works

投影模式的编码方案是结构光技术的一个重要问题。然而,如上所述,准确性和速度始终是编码方案中相互矛盾的两个方面。下文简要概述了为解决这一重要问题所作的努力。

2.1. Hybrid pattern

模式融合是模式生成过程中的一种有效的投影方案。基于多结构光测影技术的互补组合,可以获得高质量的三维表面轮廓。这种混合模式技术最常应用于静态对象[23]的测量。由于运动目标在捕获的图像中是模糊的,并且在多个捕获的图像中姿态不一致,解码错误是导致测量失败的主要原因。已有文献报道了基于混合模式的运动目标深度感知方法。张[24]提出了一套由FTP和RS组成的混合结构光模式。设计了一种基于被测物体速度选择深度计算方案的场景自适应算法,生成最优深度图。向[25]提出了一种由具有相干周期的空间调制条带组成的条带模式。然后,根据设计的模式,以混合的方式获得深度。

2.2. Depth measurement of rapidity and accuracy

在混合模式下,深度图可以通过FTP从多个连续的图像帧计算,也可以通过RS从单个帧计算。虽然单镜头结构光轮廓术相对于多镜头技术具有固有的速度优势,但其分辨率和精度较低。单镜头技术更容易受到被测表面[26]的色彩效果的影响。为了减少不同颜色通道之间的串行干扰,需要进行额外的颜色反采样计算,以最小化轴向分辨率的不利影响。由于被测目标的局部反射,降低了模式的对比度,降低了测量精度。总的来说,单镜头技术比多镜头技术对这种对比度变化更加敏感。多镜头技术通过在高维提取算法中加入强对比计算来滤除非均匀反射率。局部反射率通过不同强度的连续模式投影逐像素归一化来提高测量精度,这是单镜头技术无法实现的。因此,多镜头三维测量的精度要高于单镜头技术。

3. Hardware architecture and projected pattern

3.1. Binocular structured light

我们假设在被测场景中存在静态目标和移动状态目标。在运动的物体中有一些运动速度非常快的目标,它们的速度超过了快门速度。所提出的器件如图2所示。这两款相机的光学中心在一条直线上,但它们的光轴不平行。投影仪被放置在摄像机的中心上方。这样的安排使得投影模式在相机拍摄的照片中偏移了相机线,并垂直于相机轴。投影仪和摄像机的这种布置满足了快速、同步投影和采集的要求。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
图像采集装置为高清晰度3224×2448的USB摄像头,最大帧速率为60fps。本装置的DLP投影仪为TI Light Commander,集成了DMD技术,分辨率为1920×1080。该可编程投影仪的帧频高达700hz,可用于8位灰度图像。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
摄像机和投影仪可以基于针孔成像模型建模。投影采集装置模型如图3所示。根据针孔成像模型,可以将世界坐标系中的点PwP _w映射到摄像机坐标系中的点PiP_ i,投影坐标系中的点PPP_ P
论文《Multi-state objects depth acquisition based on binocular structured light》学习
参数Kl,KrKpK_l,K_r和K_p是摄像机的外部参数和投影仪,KaTeX parse error: Double subscript at position 24: …_ l], [R_ r, _T_̲r]和[R_p, T_p]的外在参数摄像机和投影仪,R是一个3×3正交旋转矩阵,和T是一个3×1平移向量。

3.2. The design of the projected pattern

由于实验环境中存在静止、慢速和快速运动的物体,传统的结构光技术无法同时满足多状态目标深度捕获的要求。因此,我们设计了一个混合模式来适应多状态目标的深度信息感知。

混合谱图融合了正弦条纹、散斑和线,如图4所示。将散斑和线模式放置在相位的峰值部分,以减少散斑和线对相位信息的影响。基于这种混合模式,可以根据不同的解码方案对不同的模式进行单独解码。

在静态目标深度测量中,可以利用双目结构光对正弦条纹进行投影,然后用不同的相机进行捕获。RS方法可以作为引导相位展开的种子点。在慢速运动物体的深度测量中,正弦条纹会因为运动而变得模糊。然而,在慢速目标区域,散斑和散斑之间的线清晰可见,利用这些散斑和线模式可以获得目标区域的深度信息。在快速运动目标深度测量中,用锐化算法很难确定散斑的位置。然而,模糊线可以作为计算深度信息的基础。通过计算直线的宽度,测量了快速运动物体区域的深度信息。即使对于超快速移动的物体,这种方法也是适用的。

3.3. Segmentation of moving and static objects based on background subtraction

由于场景中存在多状态目标,包括静态、慢速和快速运动目标,单一的解码方案在清晰度和快速性方面无法满足所有对象的深度感知。因此,在计算深度信息之前,基于运动速度的图像分割是必要的。然后根据不同区域的运动特征选择相应的解码方案,计算出最佳深度信息。

在我们的实验场景中,模糊只来自于运动,因此可以基于背景减除(BS)对图像进行分割。BS方法是一种利用帧间差异构造背景的动态方法。根据背景和当前场景的不同,可以获取前景对象。该算法的数学模型如下:
论文《Multi-state objects depth acquisition based on binocular structured light》学习
Ft(x,y)F_t (x,y)是当前场景点在t时刻的集合。中值滤波用于计算帧从Ftγ(xy)Ft(xy)F _{t-\gamma}(x,y)到F_ t(x,y)的参考背景,其中γ\gamma是时间间隔。St(xy)S_t(x,y)是检测到的前景区域。根据像素St(x,y)S_ t (x,y)连通域的最大似然空间位移,将场景分为静态、慢速和快速区域,公式如下:
论文《Multi-state objects depth acquisition based on binocular structured light》学习
ϛt(x,y)ϛ_t (x, y)的连通域像素St(x,y)S _t (x, y)所在地。将分割算法应用于三个不同的区域,分别使用不同的颜色标签。删除前景后,背景区域标记为蓝色,静态区域标记为绿色,缓慢移动区域标记为橙色,快速移动区域标记为红色。

4. Deep acquisition of multi-state targets

区域颜色和模式解码方案如图5所示。当被测物体处于静止状态时,其正弦条纹、散斑和线纹清晰,相对相位具有周期性。通过傅里叶变换可以得到正确的相位图像。当场景中物体缓慢运动时,相位是混沌的,但仍能获得散斑信息。当物体快速运动时,相位和散斑会变得模糊和不可用。只有线条模式可以用来计算深度信息。
论文《Multi-state objects depth acquisition based on binocular structured light》学习

4.1. Depth acquisition of fast targets based on line pattern

当物体快速运动时,RS和正弦条纹的图像会变得模糊。虽然使用去模糊算法可以使图像变得更清晰,但是基于该算法无法恢复散斑和正弦模式。然而,这条线被拉长了,并且沿着极面方向产生了伪影。快速或超高速运动目标的深度可以根据从两个摄像机不同角度获得的伪迹信息来计算。

根据建立的摄像机和投影仪模型,可以将投影仪坐标系中的点PpP_p映射到摄像机坐标系中的对应点PlPrP _l和P_ r,如公式所示。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
论文《Multi-state objects depth acquisition based on binocular structured light》学习
由于运动模糊,很难找到投影仪和相机之间的对应点,因此传统的三角测量方法无法获得深度。在快门时间,点在投影仪投影到不同的位置。在起点和终点之间创建一条连续的线,这被定义为工件。工件的宽度不同于图6所示的不同类型的工件。伪影的宽度、速度与物体的深度呈线性关系;工件的宽度可以用来解决深度信息。因此,我们将深度dP(PlPr)d与P_•(P _l和P _r)的关系替换为函数q:
论文《Multi-state objects depth acquisition based on binocular structured light》学习
假设深度d处的点具有位移Δd,并且相应的投影点在图像坐标系中从点P变化到点P‘’,并且表示为伪影的宽度ΔP。它们之间的转化率可以近似地表示为q的导数。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
在这个方程中,深度d随着q (d)的导数而变化。因此,至少需要两个不同角度的摄像机来解这个方程,因为有两个未知数。左右摄像头的两个方程如下:
论文《Multi-state objects depth acquisition based on binocular structured light》学习
L(d)L (d)是一个函数的d, L (d)是一个单调函数在实践中,所以逆函数L1(d)L^{−1} (d),然后深度值d坐标(x, y)可以根据两个工件的宽度计算如下所示:
论文《Multi-state objects depth acquisition based on binocular structured light》学习
当两个相机处于平行状态时,不同相机的伪影宽度相同。的比率ΔPlΔPrΔP_ l和ΔP_ r是一个固定值,因此无法估计的深度信息。当两个相机之间存在旋转角度时,可以建立伪影宽度的比例关系。深度信息可以根据L1(d)L^{ - 1}(d)反函数的比值和伪影宽度的比值来估计。在不同的坐标系(x, y)下,L1(d)L^{ - 1}(d)的反函数不同,如图7所示。其中颜色信息表示y的值,L1(d)L^{ - 1}(d)可以根据横坐标x和颜色信息y唯一确定。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
最后根据深度信息和前景轮廓信息对得到的深度进行插值,从而构造出更加完整、准确的深度图。

4.2. Depth acquisition of slow targets based on RS and line pattern

当物体处于慢速运动状态时,基于去模糊算法和快速投影获取技术的遥感图像和线模式清晰;然而,由于运动引起的相位偏移,正弦条纹是无效的。区域相似性度量是实现散斑深度恢复的常用方法。归一化互相关(NCC)是该方法的主要度量指标。假设RlRrR _l和R _r是大小相等的两个区域,RlR _l是投影散斑图的一部分,RrR _r是被捕获的投影物体变形散斑图的一部分。在这两个区域的散斑中,NCC的变量C(Rl,Rr)C (R _l,R _r)可由下式计算:
论文《Multi-state objects depth acquisition based on binocular structured light》学习
通过比较相应的散斑偏移量,利用三角法计算稀疏深度值。基于稀疏深度,采用区域增长算法计算稠密视差。将基于散斑的稀疏深度计算作为种子点,得到更鲁棒的视差图,进而得到稠密深度。下面的算法详细描述了生成稠密视差图的过程。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
然后根据密集视差信息,得到密集深度图。

4.3. Depth acquisition of static targets based on FTP and sparse depth

为了测量静态区域的深度信息,使用FTP获取高分辨率的深度信息。基于模糊图像分割算法对运动部分进行滤波;静态区域变成一个连接或不连接的状态。因此,相位展开过程不能按照外极性方向进行。然而,根据RS信息,将已知相位作为种子扩展到邻域,直到求解出区域相位。在展开过程中避免了基于该方法的相位累积误差,在不连通区域中避免了相位模糊。

在实际的相位,相位序数是重要的参数来确定绝对相位ΦaΦ_a的准确性。当目标深度突然变化或被遮挡时,一般的极外方向相位展开方法不能正确地获得相位顺序。相位模糊是移相结构光测量中常见的一种相位分解误差。然而,如果相位循环中的某点深度信息已知,则可以直接计算相位序数。在我们的方案中,可以根据散斑和线模式来获得平稳区域的稀疏深度。让函数D(DlDr)D(D_ l和D _r)表示变量相对相位Φ0Φ_0和相位序数k,如下所示:
论文《Multi-state objects depth acquisition based on binocular structured light》学习
ΦuΦ_u在哪里生长的均匀相位地图投影面积内均匀周期阶段。fXf_{X•}分别包含左右摄像头的固有参数。然后相位序数k(kl,kr)k_•(k_ l, k_ r)与稀疏深度DsparseD_{sparse}的关系表示为:
论文《Multi-state objects depth acquisition based on binocular structured light》学习
序数k计算后的阶段,可以获得准确的绝对相位ΦaΦ_a根据参数k。即使深度地图可以根据统一的阶段和计算获得的绝对相位由一个摄像头、深度信息,而不是可以准确地计算。由于投影仪和摄像机的固有参数普遍不同,在三角剖分前的极面校正和仿射投影处理中,计算误差增大。利用左右相机的绝对相位进行相移得到深度图。

5. Experimental results and analysis

在这一部分,我们系统地评估了我们的深度采集算法。我们的测试平台使用了导轨。该导轨由可编程控制器控制,可实现不同速度下的稳定运行。因此,物体可以在导轨上以不同的速度运动。

5.1. Qualitative analysis

在定性分析中,我们测量了一组具有不同运动状态的复杂目标。实验结果如图8所示。滑轨上的物体为慢动作,风扇为高速运行,其余为静止状态。图8中(a)列为双目捕获图像,(b)列为基于背景分割的前景目标,其中区域用颜色编码:蓝色为背景;绿色是静止的物体,橙色是缓慢移动的物体;红色是快速移动的物体。©列包含了基于各自的结构化光解码策略的不同区域的解码结果。(d)为深度计算结果。可以看到,一些娃娃的表面轮廓和内部细节是清晰的。
论文《Multi-state objects depth acquisition based on binocular structured light》学习

5.2. Quantitative evaluation

为了定量分析深度图的误差,我们把摄像机放在一个三角形的前面。它们之间的距离从20厘米到120厘米不等,每次50厘米。每走一段距离,导轨的移动速度就不同。我们测量不同组的目标深度,包括不同的运动状态。

对于静态对象,FTP具有准确性的优势。基于散斑和线模式,可以准确地对相位进行包裹,快速准确地获取深度信息。对于慢速移动的物体,散斑模式和线模式有其优势。对于快速运动,线模式有很强的优势。结构光技术很难同时具备多态物体的特性,从而保证快速、准确、高分辨率。

一般来说,静态或慢速运动的物体可以通过三维扫描仪(如ATOS)获得高精度的地面信息。其精度可达0.001毫米。而对于快速运动的物体,很难获得相应的地面真值。因此,在我们的实验中,我们将静态目标检测与地面真值进行比较,以衡量我们的算法与其他方法在精度方面的性能。在多状态目标的测量中,包括动态目标和静态目标,通过检测一组不同速度的三角形平面来定量评价生成深度图的质量。

我们首先确定各种方法都能得到有效的深度图,以便比较它们各自的特点。因此,在与许多测量技术的比较中,静态是最适合使用的。为了测试设备在不同测试距离下的性能,我们改变了测量设备的位置。

我们在测量设备前放置了一个四面体,用不同的结构光传感器测量表面信息。首先是RS,一种快速深度采集算法。第二种方法是RG,它除了辅助线信息外,还包含了RS的特征,以帮助寻找消失点。我们比较的第三种方法是FTP。

表面测量结果如图9所示。在这四个结果中,我们选择y = 120mm处的一条直线来测试它们的表面平滑度,如图10所示。可以看出,随机散斑是最差的,而我们算法的结果的平滑性是最好的。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
论文《Multi-state objects depth acquisition based on binocular structured light》学习
为了进行更为严谨和全面的定量评价,我们计算了重构点与拟合平面之间的RMSE重构误差。将该方法的精度与两种最先进的多状态目标深度检测技术进行了比较,如图11所示。论文《Multi-state objects depth acquisition based on binocular structured light》学习
实验结果表明,随着测量距离的增加,主动视觉测量技术的误差逐渐增大。RS的表现最差。RG在散斑的基础上加入行信息,其精度优于RS, FTP的精度远远高于RG和RS,本文提出的新算法性能最佳。

在多状态目标的定量分析实验中,将三角形平面置于滑轨上,以变速方式向前运动。我们即时截取静态、慢速和快速状态,并观察不同方法得到的深度图的质量。不同速度下得到的深度图如图12所示,其中(a)为静止状态,(b)为慢速运动状态,©为快速运动状态。第一行是左相机捕获的结构化光信息。第二行是物体基于不同速度的状态标记。第三行是根据不同的解码算法提取的不同模式。在静态区域,模式有相位模式、散斑模式和线模式。在慢动作区,图案有散斑图案和线纹图案。在快速运动区域中,图形只是一个线模式。第四行是根据不同解码模式计算出的深度图。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
RMSE的结果如图13所示。运动加速时,FTP的效果最差。相比之下,RS和网格可以在低速下工作,RG的质量高于RS。我们的算法在加速时误差很小;速度越大,精度越高。
论文《Multi-state objects depth acquisition based on binocular structured light》学习
然后,我们将提出的方法与先前的混合模式深度感知方法进行了比较。具体来说,我们比较了由Ryo[22]提出的:结构光流(SLF)算法的RMSE和分辨率(Res.);张[24]提出的混合结构光(HSL)算法;及向[25]提出的多频模式(MFP)算法。结果如表1所示。与其他算法相比,本文提出的新算法具有更好的分辨率和精度。

6. Conclusion

本文设计了一种多状态目标深度捕获的新算法。在被测场景中同时包含静止目标和运动目标,可以获得高精度、高分辨率的深度图。我们没有使用快速投影和采集设备来减少运动模糊。相反,普通相机被用于我们的双目结构光设备。基于背景分割技术对前景对象进行分割,并根据不同的运动状态将前景对象划分为静态、慢动作和快动作区域。正弦、散斑和线模式在有静止物体的区域是有效的。散斑和线模式在运动区域也很有效。在快速移动区域,只有线形图案有意义,才能保证测量的最高精度。换句话说,当场景中包含多状态目标时,我们的算法针对目标的不同状态选择最合适的解码算法。

在实验中,我们首先测试我们的算法的准确性,并将其与其他算法进行比较,只测试固定的物体。然后,通过测量导轨上三角形的非均匀运动来测试算法的准确性和快速性。最后,对算法在复杂场景中的有效性进行了定性分析。实验结果表明,该算法在复杂的多状态场景中具有良好的精度和分辨率。