Multi-Class Multi-Object Tracking using ChangingPoint Detection
1. 摘要
本文提出了一种新颖的多类多目标跟踪(MCMOT)框架,通过组合检测响应和变点检测(CPD)算法来进行无限类多目标跟踪。该框架的效果优于当前最先进的视频跟踪技术。
检测响应:用CNN-based的object detector和基于KLT(Lucas-Kanede Tracker)的motion detector来计算the likelihoodsof foreground regions,以此作为不同类别目标的检测响应。
CPD:CPD模型用于观察由遮挡或者draft引起的突变状况。
基准数据集:ImageNet VID 和 MOT Benchmark 2016。
2. MCMOT框架
MCMOT算法总结:
首先,在实体状态转换步骤中执行对象的出现和消失分配。其次,使用数据驱动的MCMC采样步骤构建中间轨道段。然后,通过变化点检测算法监测可能发生的漂移。最后组合出轨迹。
上图所示中的step1在observation model中详细介绍。
2.1 观察模型
集合了多种特征的目标检测器来计算目标的observation likelihood,最后估计出目标的类别和精确位置。
本节中定义observation model(observation likelihood)P(Z_t |X_t) 。追踪物的observation likelihood需要估计物体类别和精确的位置。MCMOT集合不同特征的object detectors来精确的计算observationlikelihood。用存在和不存在可能性的比率来衡量。由于无法测量non-existenceset的likelihood采用likelihood模型的soft max函数f(.),如下
表示物体id不存在,λ_e表示object detector的权重。由于每个detector都有自己的优缺点,这个方法应该对零散的噪音有健壮性。
使用的detectors有deep featurebased globe object detector(GT)、deep featurebased local object detector(LT)、colordetector(CT)、motion detector(MT):
(1) GT:使用基于分层数据模型(HDM)的基于深度特征的object detector。
(2) LT:通过使用可靠的轨迹段微调基于深度特征的object detector,可以最小化由于falsenegative造成的问题。
(3) CT:通过使用Bhattacharyya距离来计算observedappearance model和target之间的相似度得分。Bhattacharyya距离基于bounding box的RGB颜色直方图。
(4) MT(motion detector):使用基于KLT的motion detector 检测对象的存在。
2.2 创建track segment
下面将讨论数据驱动MCMC采样细节,以及实体状态转换。
数据驱动的MCMC采样
在基于MCMC的抽样中,proposal density function很重要,因为它影响固定分布的马尔可夫链的构建。给定场景粒子t时刻的状态,可以根据提议密度函数来建议粒子t+1时刻的状态。本文中采用数据驱动的提议密度使马尔可夫链有更好的接受率。本文的MCMOT提出了一个新的状态,其中混合了状态移动以确保运动平稳性,如下所示:
其中λ_1+λ_2=1。第一项来自运动模型,第二项来自探测器集合,并使用来自对象id的所有探测的最接近结果。
估计实力状态转换
2.3 变点检测
首先变点检测算法会计算出一个CPD分数,若这个分数超过阈值,则要经过前向-后向验证计算FB error,若此值超过阈值,则排除所对应的tracksegment。最后整合留下的confident segments成轨迹。
FB error是根据验证点的初始点和终点之间欧氏距离来度量的,公式如下:
3 实验结果
3.1 实验细节
如何构建全局和局部目标检测器:使用ImageNet分类数据集上预训练的公共可用16层VGG-Net和ResNet,然后用ImageNet挑战检测数据集进行微调,其中迭代次数为280k、学习率为0.001。
使用RPN生成region proposal。
变化点阈值设置为0.3
3.2 CPD分析
如图,红线对应的纵坐标的值表示变换点检测的分数,分数越高,发生漂移的可能性就越大,若大于0.3则认为发生了漂移。
3.3 ImageNet VID 评估
对于ImageNet VID训练/验证实验,所有训练和测试图像按600像素缩放为图像最短边的长度。这个值被选中,以便VGG16或ResNet在微调期间适合GPU内存。
表一的结果显示,在mean average precision指标上本文提出的MCMOT CPDFB比检测基线高出了9.8%,达到了74.5%。
本文此结果主要是由于MCMOT通过使用CPD来构建高精度片段的方法。简言之,CPD是本文的最大亮点。
表二是MCMOT和其他先进方法在mAP指标上的比较结果。
3.4 MOT Benchmark 2016评估
对于MOT 2016的实验,所有训练和测试图像按800像素缩放为图像最短边的长度。选择较大的值是因为行人边界框大小小于ImageNet VID。
表3. 2016年MOT基准测试的跟踪性能比较。符号表示较高的分数表示较好的表现,符号表示较低的分数表示较好的表现。表3总结了测试视频序列中MCMOT和其他技术水平的评估指标。
图5显示了测试序列中MCMOT跟踪结果的例子。
4 总结
本文提出了一种新颖的多类多目标跟踪框架。该框架超越了ImageNet VID和MOT基准2016年的最新成果.MCMOT根据检测响应延伸了无限的对象类关联。CPD模型用于观察由漂移引起的突然或异常变化。采用基于KLT的运动检测器和基于CNN的目标检测器的集合来计算可能性。未来的研究方向是处理MCMOT结构和轨道段之间的身份映射问题的优化问题。