Tracktor:《Tracking without bells and whistles》
.
本文核心思想:
本文提出的Tracktor仅通过一个目标检测器即可完成MOT任务。对于给定的帧t包含两个主要的处理步骤,如上图,用蓝色和红色表示。
首先(蓝色部分,对应轨迹bbox回归更新),将t-1帧已有的轨迹边界框作为第t帧该轨迹的起始边界框,进行回归对齐即可得到当前帧对应轨迹的bbox(这里的理论支持前提是高帧率视频下,前一帧和后一帧位置变化不大)。然后,将新bbox的位置相应对象分类分数用于kill掉可能被遮挡的轨道。
其次(红色部分,新轨迹的加入),对于新轨迹的出现,检测器仍然提供t帧的一组检测D_t,如果其中某些检测结果没有与已存在的轨迹集合B_t的任何边界框的IOU超过一定阈值,则初始化这些检测为新轨迹。
以上是Tracktor的核心内容,Tracktor++就是加入ReID和运动模型。
本文的贡献:
1) 介绍了Tracktor,该Tracktor通过利用检测器的回归头来执行对象边界框的时间重新对齐,从而解决了多对象跟踪问题。
2) 介绍了对Tracktor的两个简单扩展,ReID Siamese网络和运动模型。最终的跟踪器在三个具有挑战性的多对象跟踪基准测试中表现出最先进的性能。
3) 对失败案例和具有挑战性的跟踪方案进行了详细的分析,并显示没有任何一种专用的跟踪方法比本文的回归方法具有更好的性能。
4) 提出了一种作为检测器的新跟踪范式的方法,该方法可以利用检测器并使研究人员专注于剩余的复杂跟踪挑战。这包括对有前途的未来研究方向的广泛研究。
1. Background and Motivation
本文提出观点:A detector is all you need for Multi-Object Tracking。MOT 的常规思路都是要先检测,在做数据关联。但是,作者发现,最近两年,虽然有很多方法被提出,但是,在几个公共的 MOT 数据集上,并没有很明显的提升(两年才提升了2点多)。作者发现通过仅仅利用物体检测算法,如Faster rcnn,就可以达到SOTA的效果。这也引出了一个很有意思的问题:如果一个检测器就可以很好地完成 MOT 的任务,那么,tracking algorithm 有什么用呢?这还是必要的吗?
2. A detector is all you need:
有一些物体检测算法中包含通过 regression 的方式进行 bounding box refinement 的模块。作者提出使用这种 regressor 来进行 MOT。这种方式有如下两种优势:
1). 不需要任何关于 tracking 的训练;
2). 在测试阶段不进行任何复杂的优化,因此该算法是 online 的。
此外,本文的方法也可以达到 SOTA 的效果。
2.1. Object detector
在MOT17Det行人检测数据集上使用ResNet-101和特征金字塔网络(FPN)训练了更快的R-CNN。
2.2. Tracktor
MOT 的挑战在于:提取给定的视频帧中的多个物体的时间和空间上位置信息,即:轨迹。这种轨迹信息被定义为:一系列有序的物体包围盒的集合。
在时刻 t=0,作者的 tracker 用第一组检测的结果进行初始化,即:。在图 1 中展示了两个随后的步骤:the bounding box regression and track initialization。
Bounding box regression:
第一步就是,如下图蓝色箭头所示,探索 bounding box regression 来更新已有的轨迹。通过将 t-1 帧的 bounding box 进行回归,得到第t帧新的位置
。在Faster RCNN 中,这就对应了在当前帧的 feature map 上进行 RoI Pooling 操作,但是用的是前一帧的 BBox。作者提出这种做法的一个假设就是:两帧之间的运动不是很明显,特别是在高帧率的视频上。身份自动从先前的边界框转移到回归边界框,从而有效地创建了轨迹。对于所有后续帧重复此操作。
在 BBox 回归以后,作者的跟踪器考虑两种情况来删除一个轨迹:
1). 一个物体在视频帧中消失了,或者被其他物体被遮挡了,判断依据即:如果新的bbox的位置classification score 小于某一阈值;
2). 目标之间的遮挡,可以通过采用NMS 来处理。
Bounding Box Initialization
为了处理新出现的目标,目标检测器也提供了整个视频帧的检测结果 D_t。第二步,即图中红色箭头部分,类似于第一帧的初始化。但是,从D_t开始的检测,当且仅当 IoU 与任何已有的轨迹 不超过某一阈值。即,将匹配不到的检测认为一个目标为新的 id。
2.3. Tracking extensions
作者将该模型进行了拓展,即:结合了 motion model 和 re-identification model。
Motion model. 作者之前的假设:两帧之间的变化不是很大,在有些情况下并不成立:large camera motion and low video frame rates. 在极端的情况下,BBox 从 frame t-1 在第 t 帧中可能根本不包含目标物体了。所以,作者设计了两种 motion model 来改善 BBox 在将来帧中的位置。对于运动相机,作者采用相机运动补偿(camera motion compensation, CMC)的方式进行缓解。作者采用图像配准的方式来对齐视频帧,用的是 增强型相关系数 (ECC) 最大化。对于低帧率的视频,作者采用等速假设(CVA)。
Re-identification. 为了让 tracker 能够保持 online,作者提出利用 short-term re-ID 的方式(借助 Siamese Network 来进行 appearance feature 的匹配)来改善效果。为了达到这个目标,作者将删除了的目标,存储固定帧数的样本。然后将这些样本和新检测的目标在 embedding space 进行重识别。为了最大程度地降低错误reID的风险,我们仅考虑IoU足够大的成对的停用边界框和新边界框。
读后总结:
Tracktor模型简单,通过用前帧目标的bbox作为当前帧的初始bbox来回归,大大减少了FP,且省略了data association步骤,执行速度快,而且可以从目标检测领域的进步中受益,无需对跟踪进行专门优化训练,但无法解决遮挡问题引发的IDSW,所以作者在Tracktor++模型中加入ReID,这样就解决了遮挡问题,但是由于计算可能带来的帧率下降,导致前后两帧结果差距较大,因此加入运动模型。