[CVPR2020论文(目标跟踪方向)]Know Your Surroundings:Exploiting Scene Information for Object Tracking

大家好,马上又要周末了,这周有认真学习,认真科研吗?最近看了一篇新的论文,这里做一下分享。

更新时间:2020.04.17

论文题目:Know Your Surroundings:Exploiting Scene Information for Object Tracking

作者:Goutam Bhat,Martin Danelljan,Luc Van Gool,Radu Timofte

摘要:目前SOTA的跟踪器为了定位目标在每帧中的位置,只依赖于目标外观模型。这样的方法在一些情况中会失败,比如快速的外观变化或干扰物的出现,只有目标外观模型对于鲁棒的跟踪来说是不够的。知道周围场景中其他物体的存在和位置信息对这种情况是十分有利的。这些场景信息可以在序列中传播,并用于,比如,避免干扰物和排除目标的候选区域。

在本文的工作中,我们提出了一个可以利用场景信息的新颖的跟踪框架。我们的跟踪器用稠密局部状态向量来表示这些信息,该向量可以对局部区域是否为目标、背景或干扰物进行编码。这些状态向量在序列中进行传播,并和外观模型输出结合来定位目标。我们的网络通过直接最大化在视频上的跟踪性能来学习高效的利用场景信息。所提出的算法在3个跟踪基准上达到了SOTA,在GOT-10k数据集上的AO分数达到63.6%。

1、引言

目标跟踪是有大量应用的基本视觉问题之一。任务是在给定初始外观的情况下,估计视频序列每一帧中目标物体的状态。大多数最近的方法通过学习初始帧中的外观模型来解决该问题。这个模型就被用于后续帧,通过从周围背景中判别出目标外观来定位目标。尽管获得了不错的结果,这些方法只依赖外观模型,并没有利用场景中的任何信息。

与之相比,在跟踪的时候人们利用更为丰富的提示集。我们对场景有全面的了解,考虑的不仅仅是目标外观,还连续考虑场景中的其他物体。这样的信息对目标定位是非常有帮助的,比如有干扰物的杂乱场景,或当目标经历了快速外观变化时。考虑图1中的例子。仅给定初始目标外观,由于干扰物体的出现,很难定位目标。然而,如果我们利用之前的帧,我们可以很简单的检测到干扰物体的存在。接下来,这些知识就可以被传递到下一帧中,从而更可靠的定位目标。尽管目前的方法利用上一帧更新了外观模型,它不能捕捉场景中其他物体的位置和特性。

[CVPR2020论文(目标跟踪方向)]Know Your Surroundings:Exploiting Scene Information for Object Tracking

1 目前的方法(上面)仅利用了外观模型来跟踪目标。然而,该方法在上面的场景中就失败了。在这里,干扰物的出现让仅仅基于外观进行准确的目标定位变的不可能,尽管目标模型是利用上一帧连续更新的。与之相比,我们的方法(下面)也知道场景中的其他物体。这个场景信息通过计算连续帧之间稠密的相关性(红色箭头)在序列中传播。传播的场景知识很好的简化了目标定位问题,使得跟踪更加可靠。

在本文的工作中,我们的目标是超越传统的基于逐帧检测的跟踪。我们提出了一个新颖的跟踪框架,它可以将有价值的场景信息在序列中传播。这些信息被用于实现提升每帧中场景感知的目标检测。场景信息用局部状态向量的稠密集合来表达。它们对局部区域的有价值的信息进行编码,比如区域是否与目标、背景或者干扰物体相关联。当区域在序列中移动的时候,我们通过利用帧之间的稠密关联映射来传播关联状态向量。因此,我们的跟踪器感知了场景中的每个物体,并且可以利用这些信息来避免干扰物体。场景信息和目标外观模型被用于预测每帧中目标的状态。由状态表达捕捉的场景信息通过循环神经网络模块进行更新。

贡献:主要贡献如下。(1)我们提出了一个新颖的跟踪框架,利用丰富的场景信息,并用稠密局部状态向量来表示。(2)引入传播模块,从而通过预测软连接来映射连续帧中的状态。(3)我们引入预测模块,高效的结合目标外观模型输出和场景信息,从而定位目标。(4)通过循环神经网络模块来用新信息更新状态。(5)我们训练了网络,从而直接在完整的视频上最大化跟踪性能。

我们在5个基准(VOT-2018、GOT-10k、TrackingNet、OTB-100、NFS)上进行了大量的实验。我们的方法在五个数据集上均为SOTA。在具有挑战性的GOT-10k数据集上,我们的跟踪器获得平均重叠度(AO)分数为63.6%,超过之前最好的方法2.5%。我们也做了消融实验,分析跟踪结构中的关键部分的影响。