SPLT:‘Skimming-Perusal’ Tracking: A Framework for Real-Time and Robust Long-term Tracking

摘要

相比传统的短期跟踪,长期跟踪需要应对更多的挑战,也更贴近真实应用场景,但这方面在目前研究进展较为缓慢,因此本文提出一个新的鲁棒的、实时的长时间跟踪框架,该框架中包含一个skimming模块和一个perusal模块。perusal模块包含一个有效的bbox生成器和一个鲁棒的目标验证器,前者产生一系列候选样本框,后者计算每个候选框的置信度分数并选出最优候选框。根据置信度分数可以判断目标在当前帧出现与否,若出现(置信度分数高于设定阈值),直接根据置信度分数进行定位,并决定下一帧采取局部搜索策略;否则,判定目标丢失,下一帧采取全局搜索策略。为了加快全局搜索速度,本文提出一个新的skimming模块从一系列滑动窗口中选出最可能若干候选框,再输入perusal模块进行处理。

背景

目前大多数跟踪算法关注短期跟踪任务,但真实应用场景更多时候需要长期跟踪。前者在跟踪过程中目标始终出现在视野中,只不过可能存在遮挡等挑战使出现的目标不完整;后者在跟踪过程中目标可能频繁出现/消失在视野中,更贴近实际情况,也更具挑战性。一方面,长期跟踪视频序列更长;另一方面,长期跟踪过程中需要判断目标是否出现,因此需要具备目标重检测的能力。

贡献

为了更好地进行长期跟踪,本文提出一个simple yet effective算法:

  1. 本文提出基于深度网络的“skimming-perusal”框架来应对长期跟踪的挑战,框架中skimming模块和perusal模块均是离线训练,在跟踪过程中直接使用。
  2. perusal模块用于在局部搜索区域中精确捕捉目标位置,其包含一个基于SiameseRPN的bbox回归器和一个基于deep feature embedding的离线训练验证器。
  3. skimming模块用于在密集采样的滑动窗口中选择若干最可能的局部区域,当目标被认定丢失时加速了目标重检测速度。

本文方法

SPLT:‘Skimming-Perusal’ Tracking: A Framework for Real-Time and Robust Long-term Tracking
本文的算法框架图如上所示,算法的流程简单描述如下:
当前帧在局部搜索区域应用SiameseRPN算法中bbox回归,产生若干候选bbox,计算这些候选bbox与第一帧标定bbox的feature embedding的余弦相似性,相似性最高的候选bbox作为进一步判定目标存在与否的候选bbox,这里将该候选bbox简单记为A。

若A与第一帧标定的bbox的相似性高于设定阈值,说明目标出现在视野中,那么将A的置信度分数最高的位置定为下一帧目标的中心位置,再重复上述局部搜索过程。

若A与第一帧标定的bbox的相似性低于设定阈值,说明目标在当前帧丢失,那么在下一帧需要采取全局搜索策略重新确定目标候选bbx。通过全局搜索进行目标重检测,可以确定若干新的候选bbox,对每个候选bbox重复上述局部搜索过程。