什么是立体视觉相机?(What is a stereo vision camera?)

原文

https://www.e-consystems.com/blog/camera/what-is-a-stereo-vision-camera/

正文

立体视觉相机是指带有两个或以上图像传感器的相机,它能够让相机模拟人类的双目视觉,从而使其感知深度的能力。

人类双目视觉

什么是立体视觉相机?(What is a stereo vision camera?)

人类双目视觉通过立体视差(是指因为眼睛的水平距离差异,导致同一物体在左右眼成像位置的差异)来获取深度。

大脑使用双目的视差从二维视网膜图像来提取深度信息,这被称为立体视觉。

类似地,一些立体相机(例如Tara和TaraXL)试图模仿这种人类视觉的立体视觉技术来感知深度。 深度感知通过称为三角剖分割

相机中的立体视差

什么是立体视觉相机?(What is a stereo vision camera?)
相机中的立体视差可以通过计算两张从不同地点拍摄的二维图片获取,这两张图片的相关性可以用于构建一张深度图片。但是,获取两者相关性需要有足够的细节和纹理或不均匀性。

因此,立体视觉适用于大视野的应用以及室外使用。

深度感知技术

什么是立体视觉相机?(What is a stereo vision camera?)
捕获第三维可以通过很多不同的方式,但每一种机器视觉技术都有其优势和劣势。三维成像可以分为两个主要类别:被动和主动,可以进一步细分为特定技术。

被动技术的要点

  1. 焦点深度
  2. 光场
  3. 立体

主动技术的要点

  1. 飞行时间
  2. 结构光
  3. 干涉
  4. 立体

立体深度感知的分类

被动立体系统

被动立体系统取决于环境中可用的光,并且不使用任何外部光。

什么是立体视觉相机?(What is a stereo vision camera?)

被动立体系统适用于光线充足的纹理区域,并且在阳光下也能正常工作。

优点

  1. 阳光下表现良好
  2. 能耗低

缺点

  1. 弱光下表现平庸
  2. 无纹理场景表现平庸

什么是立体视觉相机?(What is a stereo vision camera?)

主动立体系统

主动立体视觉是一种立体视觉的形式,其主动采用诸如激光或结构光之类的光来简化立体匹配问题。

主动立体系统在缺少光线或纹理的区域很有用。 红外投影仪或其他光源将使整个场景充满纹理,从而消除了外部光源的依赖性。 但是,伴随着它的优点,还有一些缺点,例如主动立体系统会在直射的阳光下以及在使用相同外部光源技术的强干扰区域中失去其有效性。

优点

  1. 弱光条件表现良好
  2. 室内的无纹理场景中表现良好
  3. 可用作混合飞行时间和立体三角测量的深度感知技术。

缺点

  1. 阳光下,和被动式相同
  2. 在远距离场景下,与被动式相同
  3. 红外投影仪增加了能耗

什么决定了立体视觉的深度范围

什么是立体视觉相机?(What is a stereo vision camera?)

立体视觉相机,例如Tara和TaraXL,使用三角测量感知深度。下面给出确定深度的属性:

  1. 基线(Baseline)
  2. 分辨率(Resolution)
  3. 焦距(Focal length)

基线

两个摄像机之间的距离称为基线,对于人眼来说,大约为50-75 mm(瞳孔间距离),具体数值取决于每个人。

Tara和TaraXL的基线为60毫米,与人类的平均基线相似。 基线与深度成正比。 因此,基线越长,我们可以覆盖的深度越长,精度越高。

分辨率

两个相机的分辨率是与其深度成正比。

要搜索的像素数越高,视差级别数也越高。 因此,在较高的分辨率下,视差级别较高,但计算量较大。

焦距

镜头的焦距与深度成正比。
焦距越小,我们能看得越远,但视野就越窄。 随着焦距的增加,我们可以看到具有较宽视野的近景深度。
要了解这些属性以及如何选择立体声相机的更多信息,请查看以下博客。

远程深度感知

理论上讲,使用立体相机可以利用60mm的基线信息来测算无限深的深度,但是误差率会随着深度呈二次方增加。

如上所述,既然基线能随着距离的提升增加深度的精确度,那你会问

“人眼在只有50-75 mm基线的情况下,怎么能感知到这么远的距离?”

好吧,答案是人类的分辨率非常高(〜576兆像素),这使得眼睛可以感知更大的深度。

但是在当今的技术中,这种百万像素是不可能的,即使我们拥有能够拍摄576 MP图像的相机,我们仍然不具备该尺寸的处理能力。

因此,分辨率的瓶颈限制了我们的深度范围,但是我们可以通过增加基线来弥补这一点,但反过来又会减小最接近的可感知深度。

并且在更高的分辨率和基线下,立体对应问题被放大,并且计算量增加。 这在一定程度上可以通过使用GPU来解决。