论文笔记_2010-BMVC-Joint optimization for object class segmentation and dense stereo reconstruction

Joint optimization for object class segmentation and dense stereo reconstruction

摘要

稠密立体重建对象类别分割的问题都可以表述为基于条件随机场(Conditional Random Field,CRF)的标记问题(labelling problems),其中为图像中的每个像素分配一个与其视差或对象类别(例如道路或建筑物)相对应的标记。 虽然这两个问题相互提供信息,但尚未尝试共同优化其标签。 在这项工作中,我们提供了一个条理化的能量最小化框架(principled energy minimisation framework,该框架统一了两个问题,并证明了通过解决现实世界数据中的歧义,共同优化两个问题可以显着提高性能。 为了评估我们的方法,我们扩大了鲁汶街景数据集,生成了70个带有手工标记的对象类视差图。 我们希望这些注释的发布将刺激街景分析这一具有挑战性的领域的进一步工作。

介绍

对象类别分割[16、24]的问题(将对象标签(例如道路或建筑物)分配给图像中的每个像素)以及密集立体重建图像中的每个像素都用视差标记[12]),非常适合共同解决。两种方法都提出了一个问题,即提供对图像的正确标记,作为对条件随机场(CRF)的最大后验(MAP)估计之一[17],该条件通常是广义的Potts截断线性模型(Potts truncated linear mode。因此,两者都可以使用基于图割的移动制作算法(graph cut based move making algorithms)(例如a扩展[3])来解决标记问题。这些问题应共同解决,因为正确标记对象类别可以告知深度标记,而立体重建也可以改善对象标记。为了在此陈述后提供一些直觉,请注意,对象类边界更可能在深度突然过渡时发生,反之亦然。此外,在地平面上方的点的高度是有关其类别标签的非常有用的提示,可以从深度计算得出。例如,道路或人行道位于地平面上,带有标签行人或汽车的像素必须位于地平面上方,而带有标签天空的像素必须位于距相机无限远的位置。图1显示了我们的模型,该模型明确捕获了这些属性。

论文笔记_2010-BMVC-Joint optimization for object class segmentation and dense stereo reconstruction

图1:联合CRF的图形模型。 系统从已校正的立体图像对中,获取左(A)和右(B)图像。 我们的表述通过允许它们之间的交互来捕获对象类分割问题(E,第2.1节)和密集立体重构问题(F,第2.2节)之间的相互依赖性。 这些相互作用被定义为在两个问题的一元/像素(蓝色)和成对/边缘变量(绿色)之间起作用。 一元潜在对象(unary potentials)通过从我们的包含手部标记的视差(§5)的训练集中学习到的高度分布(G,eq。(3))进行链接。 成对的潜在对象(pairwise potentials)编码该对象类别的边界,并且视差的突然变化很可能一起发生。 通过组合优化,来近似的对象类别分割(C)和密集的立体声重建(D)。 请参阅§3和§4,以完整了解我们的模型,以及§6,以获取更多结果。 参考上图颜色。

 

对象类别识别产生有关3D结构的强大信息,如照片弹出窗口(photo pop-up)所示[7,8,19,20]。在这里,仅使用有关典型拍摄场景的几何形状的先验信息,以及可能在何处发生物体边界的知识,就可以从单个单目图像中重建场景的可能弹出窗口或平面模型。
除此之外,许多任务都需要对象类和深度标签。为了使agent与世界互动,它必须能够识别对象及其物理位置。例如,基于摄像头的无人驾驶汽车必须能够区分道路和其他类别,还必须能够识别道路的终点。同样,几家公司[6]希望向地方当局提供资产的自动注释(例如路灯,排水沟或道路标志)。为了提供此服务,必须识别资产,将其定位在3D空间中,并估算所制造资产的质量。
使用对象标签来通知场景重建并不是什么新鲜事。前面提到的[7]的弹出方法明确使用了对象标签来辅助场景模型的构建,而3D布局CRF [9]将3D模型与对象实例进行了匹配。然而,在[7]中,他们根据对象类别分割的结果建立了一个合理的模型,既没有共同解决这两个问题,也没有试图建立场景的精确3D重建,而在本文中我们共同估计了两者。 Hoiem等 [9]不仅将3D模型适合整个场景,而且仅适合特定对象,并且类似地,这些3D模型的目的是合理而非准确。
Leibe等 [18]采用运动结构(SfM)技术来辅助跟踪和检测运动物体。但是,无论是物体检测还是获得的3D重建都没有对图像中的每个像素进行密集标记,并且跟踪和检测中的最终结果并未用于完善SfM结果。 CamVid [5]数据集提供了稀疏的SfM线索,几种对象类分割方法[5、25]使用了这些线索来提供逐像素标记。在这些作品中,没有执行密集的深度标注,并且没有使用对象类别分割完善3D结构
所讨论的工作均未执行联合推理,以获得密集的立体声重建和对象类别分割。在这项工作中,我们证明了这些问题是相互有益的,并且可以从共同解决中受益。我们考虑了市区的场景重建问题[18]。这些场景包含对象类别,例如道路,汽车和天空,它们的3D位置有所不同。与通常在受控环境中生成的典型立体数据集相比,由于较大的同质区域(homogeneous regions光一致性(photo-consistency问题,在此现实世界的数据上进行立体声重构显然更具挑战性。我们使用a拓展(a-expansion)方法[3]和距离移动算法(range move algorithms)[14,26]的变型,有效地解决了联合估计目标类别和深度的问题。
目前没有同时包含按像素的对象类和密集的立体数据的、公开的现实世界数据集。为了评估我们的方法,我们通过创建手标记的对象类和70张图像的视差图来扩充[18]的数据集。该数据集将向公众发布。我们的实验评估表明,密集立体重建和对象类别分割的联合优化可导致最终结果准确性的大幅提高。
本文的结构如下:在第二部分中,我们给出了用于稠密图像标记(dense image labelling)的CRF的一般表述,并描述了它们如何可以用于对象类别分割和密集立体重构的问题。 第3节介绍了允许对这两个问题进行联合优化的公式,而第4节则说明了如何有效地执行优化。 数据集在第5节中介绍,实验验证在第6节中介绍。

论文笔记_2010-BMVC-Joint optimization for object class segmentation and dense stereo reconstruction