论文翻译:Multi-view People Tracking via Hierarchical Trajectory Composition

来源:CVPR2016

Abstract

        本文提出了多视点对象跟踪的分层组合方法。其关键思想是自适应地利用二维和三维的多重线索,例如地面占有一致性,外观相似性,运动相干性等,这些线索在追踪行人轨迹的过程中相互补充。虽然在过去的文献中已经广泛地研究了特征联机选择,但是如何有效地调度这些提示以用于追踪目的仍然不清楚,特别是在遇到各种挑战时,例如,遮挡,连词和外观变化。为此,我们提出了一个层次组合模型,并将多视点多目标跟踪作为组合结构优化的一个问题。我们设置了一套组合标准,每个标准对应一个特定的提示。通过利用不同的标准来追求层次组合过程,这在图层节点和其层次结构中的后代之间施加了约束。我们学习使用最大似然估计(MLE)标注数据的构成标准,并通过迭代贪婪追踪算法有效地构建分层图。在实验中,我们证明了我们的方法在三个公共数据集上的优越性能,其中之一是由我们新创建的,以测试多视图多目标跟踪中的各种挑战。

1. Introduction

        多视点多目标跟踪在过去的文献中引起了很多关注[22]。 从多个视图跟踪对象本质上是一个组合优化问题。 例如,人的三维轨迹可以分层分解为单个视图的轨迹,轨迹片段和边界框。尽管现有的追踪器或多或少地利用了上述原理,但是他们对特定提示的有效性强加了假设, 外观相似性[1],运动一致性[9],稀疏性[30,50],三维定位符合[24]等,这些并不总是正确的。 实际上,不同的线索可能在物体轨迹的不同时期占主导地位,特别是对于复杂的场景。 在本文中,我们感兴趣的是从各种线索中自动发现对象轨迹的最佳组合层次结构,以便处理更多种类的跟踪场景。
论文翻译:Multi-view People Tracking via Hierarchical Trajectory Composition
        如图1所示,假设我们想跟踪突出显示的人物并获得完整的轨迹(e)。 追踪的最佳策略可能随空间和时间而变化。 例如,在(a)中,由于人物在特定时间段内共享相同的外观,因此我们应用基于外观的跟踪器来获得2D轨迹; 在(b)和(c)中,由于可以从两个不同的视角完全观察对象,所以我们可以通过测试它们的3D位置的接近度将这两个边界框组合成3D轨迹; 在(d)中,由于在这个视图中被摄体完全被遮挡,所以我们考虑从被背景占用限制的3D轨迹曲线对其位置进行采样。
本论文的工作中,我们将多视图多目标跟踪作为一个结构优化问题描述的层次组合模型。 如图2所示,我们的目标是发现层次图中每个对象的组合梯度。 我们从无结构的轨迹,即对象边界框开始,逐渐将它们组合成更大尺寸的轨迹,最终成为轨迹。 每个轨迹实体可以在单个视图或多个视图中观察到。 组合过程由一组标准来指导,这些标准描述了分层结构中组成的可行性。
论文翻译:Multi-view People Tracking via Hierarchical Trajectory Composition

        每个标准着眼于一个特定的提示上,实际上相当于一个简单的跟踪器,例如外观跟踪器[29,45],几何跟踪器[35],运动跟踪器[2],将相同视图或不同视图的轨迹组合成更大尺寸的轨迹。成分标准是我们的方法的核心:可行的组成可以递归地进行,因此标准可以被有效地利用。

        为了推断组成结构,我们放弃了基于MCMC采样的算法,因为它们的计算复杂度很高。 我们通过渐进式组合过程来逼近层次结构。 组合调度问题通过迭代贪婪追踪算法解决。 在每一步中,我们首先“贪婪”地寻找并应用具有最大概率的构图,然后重新计算增量部分的参数。

在实验中,我们在一系列具有挑战性的数据集上评估所提出的方法,结果证明优于其他最先进方法的性能。 此外,我们设计了一系列比较实验来系统地分析每个标准的有效性。

        本论文的主要贡献是双重的。 首先将多视点多目标跟踪重构为层次结构优化问题,提出了三种基于轨迹的合成准则,共同开发不同类型的线索。 其次,我们建立了一个新的数据集,以解决更多的挑战,呈现更丰富的视觉信息,并提供比现有数据集更多的详细注释。

        本文的其余部分安排如下。 我们在第二部分回顾了相关工作,在第三部分介绍了我们的方法的公式,并在第四部分讨论了学习和推理过程。第五部分介绍了实验和比较,最后是第六部分的结论。

2. Related Work

        我们的工作与以下四个研究分流密切相关。
        多目标跟踪在过去的几十年中已经被广泛研究。在文献中,由于目标检测[12,37,34]以及数据关联方面的重大进展,跟踪检测流水线[47,20,33,41,7,8]吸引了广泛的关注并获得了令人印象深刻的结果[48,32,6]。具体而言,基于网络流的方法[32,6]将检测到的边界框按照时间顺序组织成有向多个马尔可夫链,并追踪轨迹寻找路径。 Andriyenko等人[2]提出追踪离散空间中的物体,并使用样条来模拟连续空间中的轨迹。我们的方法也遵循这一流程,但将边界框视为无结构的元素。通过初步关联来保存局部性,我们可以更好地探索时域轨迹的非局部性质[23]。例如,可以将具有明显外观相似性的轨迹组合在一起而不考虑时间间隔。
        多视点对象跟踪通常被解决为跨摄像机的数据关联问题。典型的解决方案包括单应约束[24,4],地面概率占用[14],网络流量优化[42,6,25],标记点过程[38],联合重建和跟踪[19],多模态网络[36 ]和多视图SVM [49]。所有这些方法都有一定的假设,因此仅限于某些特定的场景。相反,我们感兴趣的是发现最佳的组合结构,以在各种情况下获得完整的轨迹。
        分层模型在模拟各种任务方面受到热烈的赞同。文献[17]提出了一种随机语法模型,并将其应用于解决图像分析问题。之后,赵等人。 [51]和刘等人。 [27]介绍了用于场景解析的生成语法模型。 Pero等人[31]进一步建立了一个生成场景语法来模拟曼哈顿结构在室内场景中的合法性。 Ross等人提出了一个区分对象检测问题的语法[15]。 Grosse等人[16]将矩阵分解作为结构发现问题,并通过上下文无关语法模型解决。在本文中,我们的表示可以被类比为一个特殊的层次归属语法模型,具有类似的层次结构,作为生产规则的组合标准,以及作为概率语法的软约束。区别在于我们的模型是完全递归的,没有中间层次的语义。
        组合优化在监测文献中受到相当的关注[43]。当解空间是离散的并且结构不能被拓扑排序(例如,loopy图)时,存在组合优化的问题。在所有的解决方案中,MCMC技术被广泛认可。例如,Khan等人[24]在粒子滤波器跟踪框架中整合了MCMC采样。 Yu et al。 [46]利用单站点采样器将前景斑点与轨迹相关联。刘等人[28]引入了一个空间时间图来共同解决Swendsen Wang Cut [5]提出的区域标注和物体追踪问题。在这项工作中,虽然面临类似的组合优化问题,但我们提出了一个非常有效的推理算法,并且具有可接受的权衡。

6. Conclusion

        本文研究了一种新的多视点多目标跟踪方法。 我们将物体轨迹表示为组合层次结构,并用概率性约束来表示物体轨迹,这些约束表征了轨迹的几何形状,外观和运动特性。 通过利用多个线索并用适当的调度进行组合,我们的方法很好地处理了多视点多目标跟踪中的难点。 此外,我们将在未来探索更强大的跨轨迹关系和更好的合成算法。