CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布,旷视研究院 16 篇论文被收录(其中含 6篇 Oral 论文),研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像,对抗样本攻击等众多领域,取得多项领先的技术研究成果,这与已开放/开源的旷视AI生产力平台Brain++密不可分。

本文是旷视CVPR2020论文系列解读第12篇,首次研究了在没有ground truth的情况下如何自优化跟踪算法的参数,并提出一种新颖的自我质量评估指标SQE,它反映了假设轨迹的内部特征,可以不依赖于ground truth测量跟踪性能。MOT16数据集上的实验证明本文方法与现有指标存在正相关关系,并可有效指导参数自优化,以提升跟踪性能。这一结论和方法对于实际中的多目标跟踪研究具有指导意义。

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

  • 论文名称:SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking

  • 论文链接:https://arxiv.org/abs/2004.07472v1

目录

  • 导语

  • 简介

  • 自动评估追踪器性能

    • 设计准则

    • 特征距离分布

    • 实践验证

    • 指标

  • 实验

  • 结论

  • 参考文献

  • 往期解读 

导语

 

多目标追踪任务(Multi-Object Tracking,MOT)旨在追踪一段视频序列中那些人们感兴趣的物体,它是自动驾驶、视频分析等落地应用的支撑技术,因为这些场景要求系统有能力同时追踪多个车辆或行人。

近年来,基于检测的追踪技术成为了MOT的主要实现方式,它可以检测每一帧中的物体,提取有区分力的特征,量化目标间的相似性,并在最后进行数据关联,把被检测物体分配到最可能的轨迹上。

 

该技术需要手动设置多个重要参数。为找到最优参数,需要有一个评估追踪性能的机制。但是现有指标,比如基于追踪框的指标MOTA、MOTP等,和基于轨迹精度的指标IDF1等,皆依赖ground truth的标签信息,造成优化过程受限于训练数据集。

 

实际场景中,训练集上优化的参数可能是次优的,通常难以得到ground truth以进一步优化;如果一个算法可以不根据ground truth评测MOT性能,优化MOT参数,提升追踪器的精度和鲁棒性,无疑是价值非凡。

简介

 

为此,旷视研究院设计了可自动评估追踪器性能的新指标——SQE,它可综合考量轨迹假设的数量和长度,以及非常有助于评估跟踪轨迹的一致性的特征距离信息。

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

图1:不同的类内、类间距离分布

 

如图1所示,类内距离是指同一轨迹上两个检测框之间的特征距离,类内距离分布由轨迹上所有检测框对的类内距离构成;类似地,类间距离是指不同轨迹上两个检测框之间的的特征距离。从直觉上看,如果一个轨迹包含不同目标,其距离分布会比较分散,存在多个波峰。

 

SQE有助于参数自调优,以适应不同场景。众所周知,一个追踪算法胜任多种视频场景十分困难,但是,通过调节现有算法参数提升追踪性能,有望成为一种更简便且可行的方法。据知,本文的MOT研究具有独创性,尚未有类似的前人工作。

 

自动评估追踪器性能

 

SQE的设计准则符合一个理想的追踪器应有的特性。理论与实际结果均表明,一个高质量的轨迹会在特征距离分布上呈现出单个波峰的模式。

 

设计准则

 

一个理想的MOT追踪器,应满足以下标准:

 

1)从每个物体进入追踪画面到离开,追踪器可以实现连续追踪;

2)每个物体的追踪应当一致,即由始至终每个目标应有且仅有一个追踪ID;

3)追踪器应尽可能精确定位每个物体的位置。

 

对于SQE设计而言,1)表明,追踪器应尽可能完整地追踪全部目标,因此轨迹假设的数量和长度需适当;2)表明,好的追踪器要求同一条轨迹假设上的REID特征尽可能相似,不同轨迹假设上的REID特征则尽可能不同。这可由轨迹的类内与类间距离来描述。本文用两个特征f和g的欧氏距离进行度量,写为:

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

 

由上可知,SQE指标需要综合轨迹的数量、长度和特征距离信息进行评估。另外,考虑到目标识别质量与特征距离绝对值之间的关系建立比较困难,分析特征距离分布成了一个更合理的方案。 

 

特征距离分布

 

对物体表示而言,低质量的输入会导致不确定的估计,从而计算出的REID特征会在理想值周围波动。为此,本文把特征分布建模为一个多元高斯分布:

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

 

z是一个N维的特征向量,每个维度均遵循一个独立的高斯分布,其中均值表示REID特征的理想值,方差表示波动的不确定性。进一步,本文把一对特征(Z_i,Z_j)的欧氏距离写为:

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

 

根据独立高斯随机变量的性质,则有:

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

 

如果(Z_i,Z_j)来自相同目标,则 CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标 , CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标 。标准化后的特征距离服从*度为N的卡分布:

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标     

 

如果(Z_i,Z_j)来自不同目标,则有:

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

 

因此,理想轨迹假设的类内与类间距离会呈现单波峰模式。

 

进一步,本文考察了ID发生切换的低质量轨迹。比如,在一条轨迹中追踪到不同目标A和B,或者,在两条轨迹中追踪到同一目标。为方便分析,假设每个目标和特征维度的方差相同,则特征对(Z_{A_i}, Z_{B_j})间的距离服从一个非中心卡分布。

 

同时,每个目标各自特征对的距离服从中心卡分布,则最终的特征距离分布实际上是中心卡分布与非中心卡分布之和,导致出现两个波峰。由此推断,ID不一致的低质量轨迹将会在类内与类间距离分布上呈现多个波峰。

 

实践验证

 

在MOT16数据集上,本文实际验证了上述分析。如图3所示,高质量轨迹ID 0可以一致地追踪同一个行人,且与ID 1不存在目标重叠,这两种轨迹的类内与类间特征距离分布呈现单个波峰;相反,低质量轨迹ID 9发生了ID切换,ID 3和ID 220对应了同一行人,这两种欠佳的轨迹在类内与类间特征距离分布上呈现多个波峰。

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

图3:不同追踪情况下的距离分布及其可视化

 

对于上述高斯分布基本假设的有效性,以及考虑实际可能出现的反例现象,本文通过多个实验分析发现,最终的特征距离会受到部分不理想因素的干扰,无法服从理论上的卡分布,但是不同质量的轨迹依然保持明显的单个或多个波峰的模式,且错误识别的帧数越多,出现的两个波峰越明显,波峰间隔也更大。

 

指标

 

基于上述标准和对距离分布的分析,本文提出了SQE指标,写为:

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

 

该评估过程如算法1所示,主要分为4个步骤:

 

  1. 把轨迹短、标准差大的轨迹标为虚警,记作f_p进行累加;

  2. 对于其他轨迹,使用一个两类高斯混合模型拟合类内距离,并根据均值差判断是否属于低质量轨迹。如果均值差超过特定阈值,则认为该轨迹包含不止一个目标,记作差别错误dif进行累加;

  3. 类似地处理任意两条非虚警轨迹的类间距离。如果均值差较大,则认为匹配了相同的目标,记作相似错误sim进行累加;

  4. 同时也考虑其他内部特征,比如轨迹假设的数量与平均长度。

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

算法1:SQE指标的算法流程

 

实验

 

为展示SQE指标在评估追踪性能上的优越性,本文在MOT16-02数据集训练视频上,将其与现有监督式指标做了对比。如图4所示,随着REID阈值增加,SQE和IDF1的变化类似,均先增加,然后下降,在REID阈值为0.8时最高,这时IDP、IDR、MOTA均相对较高。

 

这说明SQE可与IDF1呈现理想的正相关关系,而IDF1一般来说又是衡量轨迹精度的最佳指标。

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

图4:在MOT16-02(复杂场景)上,IDF1和SQE关于REID阈值变化的可视化结果

 

进一步,本文分析了MOT16-09的结果,与MOT16-02相比,该场景人流密度低,更简单,轨迹数量最少,拍摄角度也更低,结果如图5所示。可见,本文方法能泛化至不同的视角和场景。

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

图5:在MOT16-09(简单场景)上,IDF1和SQE关于REID阈值变化的可视化结果

 

表1总结了分别根据IDF1和SQE所确定的最优REID阈值,并记录了在这些参数下的评估分数。可见,SQE可以近似量化追踪性能。具体而言,85%的最优参数差异不超过0.25,85%的参数对应的IDF1差异不会超过3。

 

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

表1:本文方法得到的最优REID阈值与根据ground truth得到的最优REID阈值的比较结果

 

另外,在其它通用追踪算法上(比如:Deep SORT)的测试结果表明,本文方法具有很好的鲁棒性和泛化性;同样,在其它参数(merge阈值)上的实验也证明本文方法在参数上的泛化能力。

 

最后,为验证SQE有助于参数自优化,提升追踪性能,在MOT16测试集和KITTI数据集上进行了实验,同样证实了本文方法的实际意义。

 

结论

 

SQE指标可在不依靠ground truth的情况下实现参数自优化。考虑到通过设计算法实现多场景下的MOT任务十分困难,从而提出让参数自动适应不同场景的新思路。

 

观察到不同质量的轨迹在特征距离分布上会有不同的形式(单个或多个波峰),旷视研究院使用一个两类高斯混合模型来估计识别的误差。

 

MOT16数据集实验结果证明,SQE既可有效关联现有指标,也可自动优化参数,实现更佳的追踪性能;SQE还为MOT研究提供了一个兼具研究和应用价值的全新方向。

入群交流

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

或者添加helloworld0079回复关键词“视频”入群

参考文献

 

  • Anton Andriyenko, Konrad Schindler, and Stefan Roth. Discrete-continuous optimization for multi-target tracking. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1926–1933. IEEE, 2012.

  • KeniBernardinandRainerStiefelhagen.Evaluatingmultiple object tracking performance: the clear mot metrics. Journal on Image and Video Processing, 2008:1, 2008. 

  • Weitao Feng, Zhihao Hu, Wei Wu, Junjie Yan, and Wanli Ouyang. Multi-object tracking with multiple cues and switcher-aware classification. arXiv preprint arXiv:1901.06129, 2019. 

  • ErgysRistani,FrancescoSolera,RogerZou,RitaCucchiara, and Carlo Tomasi. Performance measures and a data set for multi-target,multi-cameratracking.InEuropeanConference on Computer Vision, pages 17–35. Springer, 2016. 

  • Samuel Schulter, Paul Vernaza, Wongun Choi, and Manmohan Chandraker. Deep network flow for multi-object tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6951–6960, 2017.

  • Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple online and realtime tracking with a deep association metric. In2017IEEEInternationalConferenceonImageProcessing (ICIP), pages 3645–3649. IEEE, 2017. 

  • Young-Chul Yoon, Du Yong Kim, Kwangjin Yoon, Youngmin Song, and Moongu Jeon. Online multiple pedestrian tracking using deep temporal appearance matching association. arXiv preprint arXiv:1907.00831, 2019. 

  •  Jimuyang Zhang, Sanping Zhou, Jinjun Wang, and Dong Huang. Frame-wise motion and appearance for real-time multiple object tracking. arXiv preprint arXiv:1905.02292, 2019. 

往期解读

  1. CVPR 2020 | 旷视研究院提出PVN3D:基于3D关键点投票网络的单目6DoF位姿估计算法

  2. CVPR 2020 | 旷视研究院提出SAT:优化解决半监督视频物体分割问题

  3. CVPR 2020 | 旷视研究院提出新方法,优化解决遮挡行人重识别问题

  4. CVPR 2020 Oral | 旷视研究院提出Circle Loss,革新深度特征学习范式

  5. CVPR 2020 Oral | 旷视研究院提出双边分支网络BBN:攻坚长尾分布的现实世界任务

  6. CVPR 2020 Oral | 旷视研究院提出针对语义分割的动态路径选择网络

  7. CVPR 2020 | 旷视研究院提出数据不确定性算法 DUL,优化人脸识别性能

  8. CVPR 2020 Oral | 旷视研究院提出密集场景检测新方法:一个候选框,多个预测结果

  9. CVPR 2020 | 旷视研究院提出UnrealText,从3D虚拟世界合成逼真的文字图像

  10. CVPR 2020 Oral | 旷视研究院提出对抗攻击新方法DaST:无需真实数据训练替身模型

  11. CVPR 2020 Oral | 旷视研究院提出注意力归一化AN,优化图像生成任务性能

传送门 

欢迎大家关注如下 旷视研究院 官方微信号????

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标