论文翻译:Deep Occlusion Reasoning for Multi-Camera Multi-Target Detection

来源:ICCV2017

Abstract

        单个2D图像中的人物检测近年来已经得到大大改善。 然而,这一进展很少渗透到多摄像机多人追踪算法中,当场景变得非常拥挤时,其检测性能仍然严重恶化。 在本论文中,我们引入了一个新的架构,结合了卷积神经网络和条件随机场来明确地模拟这些模糊。 其中一个关键要素是高阶CRF术语,模拟潜在的阻塞,并且即使在许多人在场的情况下,我们的方法仍然具有鲁棒性。  我们的模型是端到端的训练,我们证明它在挑战性的场景上胜过了几种最先进的算法。

1. Introduction

        多摄像机多目标跟踪(MCMT)算法在复杂环境中追踪人物已经取得了一定的效果。在深度学习出现之前,一些最有效的方法依赖于简单的背景减除、几何、稀疏性约束以及遮挡推理[12,6,1]。鉴于背景减除的有限区分能力,只要场景中没有太多人,他们的工作就非常出色。然而,随着人员密度的增加,它们的性能下降,使得背景减法作为输入的信息量越来越少。
        从那之后,基于深度学习的单镜头人物检测算法[23,19,28]已经成为最有效的算法[28]。然而,这些优秀的算法很少被用于MCMT。近期的一些算法,如[27],试图通过首先检测单个图像中的人,将检测映射到共同的参考帧中,并最终将它们对应以实现3D定位并消除误报。如图1所示,出于两个原因,这很容易出错。首先,参考帧中的映射是不准确的,特别是当二维检测器没有被专门训练时。其次,映射之前通常对2D检测器的输出进行非最大抑制(NMS),这没有考虑使用多相机的几何结构来解决歧义问题。
论文翻译:Deep Occlusion Reasoning for Multi-Camera Multi-Target Detection
        理论上,在目标检测过程中,深度学习方法通常应当更早地与遮挡推理相结合。为此,我们设计了一个CNN / CRF联合模型,其后验分布可以用标准的可微分操作进行平均场推断。我们的模型是可训练的端到端模型,可以在有监督和无监督的情况下使用。
        更具体地说,我们推导出一个离散化的地平面,其检测结果由布尔变量表示。 CRF被定义为创新的高阶项的总和,其值通过测量闭塞的生成模型的预测与CNN的预测之间的差异来计算,后者可以推断某些图像斑块为特定的身体部分。我们增加一元和两元项来增加鲁棒性并对物理排斥约束进行建模。
        总而言之,我们的贡献是一个联合CNN / CRF管道,以不需要NMS的方式执行MCMT检测。由于它明确地模拟了遮挡,所以即使在拥挤的场景下,我们的算法也能够运行稳健。此外,它输出行人在地平面上的存在概率(而不是二进制检测),从而可以使用简单的基于流的方法将其链接到完整的轨迹[6]。

2. Related Work

        在本节中,我们首先简要地讨论最近的深度学习方法在单视图人物检测中的应用。 然后,我们继续研究CNN和CRF相结合的多视图算法和技术。

2.1. 深度单视图检测

        与许多其他领域一样,基于CNN的算法[23,19,22]已经非常适合人们在单视图中进行检测,并且达到了最先进的效果[28]。这类算法通常首先提出潜在的候选边界框,并给它们指定分数。然后,进行非最大抑制(NMS),并返回最后一组候选框。 当下非常流行的算法[23]在CNN中同时执行上述两个步骤。它返回一个特征图,其中固定维度的特征向量与每个图像像素相关联。对于该图像中任意大小的二维边界框,可以使用感兴趣区域(ROI)池计算任意任意维度的特征向量并将其馈送到分类器以评估边界框内是否有人。
        虽然这个算法在许多benchmarks中已经证明了它的价值,但是它可能会在如图1所示的拥挤的场景中失败。行人严重遮挡是单视图检测需要面临的长期问题。解决这个问题的一个办法是依靠重叠视野的摄像机,如下所述。

2.2. 多摄像头行人检测

        在这里,我们把算法分为最近依赖于深度学习但没有明确说明遮挡的算法,和那些较老的解决遮挡问题但在深度学习变得流行之前出现的算法。我们的方法可以理解为一种汇集各自优势的方法。
        最近的算法[27]在多个视图上运行一个类似于[23]中的单目视觉检测器,并从结果检测中推断人的地面位置。然而,这种方法很容易出错,因为二维检测是彼此独立执行的,并且因为将它们映射到地平面上而组合会涉及重投影错误并忽略遮挡情况。然而,它是当前MCMT最新技术的代表,并且是基于较老的算法[12,6]的基准,这些算法依赖于背景减法而不是深度学习方法。
        这些较旧的算法使用具有重叠视野的多个相机来利用视图之间的几何或外观一致性来解决在拥挤的场景中出现的含糊不清以及获得准确的3D定位[12,1,21]。他们依靠贝叶斯推理和图形模型来执行检测稀疏性。例如,概率占有率图(POM)方法[12]将背景相减图像作为输入,并依靠平均场推断来计算在地平面中的存在概率。更具体地说,给定几个具有离散地平面视场的摄像机,POM首先执行背景减法。然后,它使用代表人类的生成模型作为简单的矩形,以便创建合成的理想图像,如果人们在给定的位置,将会观察到这些图像。在这个给定真实占有率的图像模型下,它使用平均场推断来近似在每个位置的占用概率。由于生成模型明确地说明了闭塞,因此POM是健壮的并且经常表现良好。但是它依赖于背景减法结果作为其唯一的输入,当人们的密度增加时,这是不够的区分性的,如图1所示。[1]的算法与POM类似,但引入了更复杂的人类模板。由于它也依赖于背景减法,所以在人口密度增加时受到相同的限制。 [21]的算法也引入了更复杂的贝叶斯模型来提高[1]的结果。

2.3. 结合CNNs和CRFs

        使用CNN来计算条件随机场(CRF)potential和以结构化预测目的联合训练已经在近年得到了很多关注[18,10,11,29,2,15,17,3]。 但是,对CRF进行适当的训练依然困难重重,因为许多有意思的模型产生了难以解决的推理问题。一个流行的解决方法是优化CRF的potential,以便使推理算法的输出上定义的损失最小化。 Back Mean-Field [11,29,2,17]已经成为能做到这一点的有希望的方法。 它依赖于一个事实:平均场推断过程中的更新步骤是连续的和可并行的[4]。 因此可以将这些操作表示为神经网络中的附加层并通过它反向传播。 到目前为止,这种方法已经被大多数的玩具问题或具有吸引力的语义分割所验证,而我们的方法也需要排斥势。

8. Discussion

        我们引入了一个新的CNN / CRF管道,在拥挤的场景中胜过最先进的多摄像机人物定位。 它充分利用了现代CNN的威力,并且可以以有监督或无监督的方式进行训练。
        然而,一个不足在于,用来计算我们的一元势能的CNN仍然在每个图像中独立运行,而不是很早地汇集来自多个图像的信息,然后利用在视图之间的预期外观一致性。 在未来的工作中,我们将探索多摄像机回归方法[9]来改善一元势能。