ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

之前阅读了ECO的论文原文并做了翻译,这里将文章分享给大家,第一次用markdown编辑器,有些公式没有重复打了就截图放上来了。
以下是正文:

摘要

​ 近年来,基于判别式相关滤波(DCF)的方法极大地提升了目标跟踪的先进水平。然而,随着跟踪性能的提高,它们的速度和实时性在不断的下降。而且,模型变得原来越复杂,训练参数越来越多,导致了严重的过拟合风险。在本篇论文中,我们要解决的就是计算复杂度过高和过拟合的问题,希望能同时提升速度和性能。

​ 我们再次研究了DCF的核心理论,并介绍了:(i)因式分解的卷积算子,极大地降低了模型的参数个数;(ii)一个紧凑的生成模型,满足训练样本分布,极大地降低内存和时间复杂度且能提供更好的样本多样性;(iii)一种保守模型更新策略,能提升鲁棒性降低复杂度。我们在四个公开数据集上进行了充分的实验:VOT2016,UAV123,OTB-2015以及Temple-Color。当我们使用计算成本昂贵的深度特征时,与VOT2016挑战赛中的顶尖方法比较,本文的跟踪器能提供加速20倍,在Expected Average Overlap 上获得13%的提升。而且,跟踪器的一个使用人工特征的加速版本在CPU上可达到60Hz,在OTB-2015上获得了65%的AUC。

1 介绍

​ 视觉追踪是计算机视觉领域最基本的任务。这是一种只给定目标的初始状态,在一系列图片中估计目标的轨迹的任务。在众多的实时视觉应用中,在线视觉跟踪扮演着重要角色,如智能监控系统、自动驾驶、无人机监控、智能交通管控、人机接口等。在实时的视觉系统中,尽管有各种计算上的限制,理想的跟踪器应该是精确的、鲁棒的。

​ 近些年,基于DCF的方法不断地在提升追踪benchmarks上的准确率和鲁棒性。基于DCF的方法能带来性能的提升主要是使用了多维特征,鲁棒的比例预估,非线性核,长时记忆组件,高效的学习模型,以及边界效应的降低。然而,这些精度的提高时以大量的跟踪速度为代价的。例如,最早先的MOSSE 跟踪器比VOT2016挑战中排名最高的DCF跟踪器C-COT要快1000倍,但只有其一半的准确率。

​ 如上述所说,DCF性能的提升主要是因为特征强大和高效的学习模型。这导致了模型庞大,需要成百上千个训练参数。另一方面,这么复杂的模型也有可能带来过拟合。在本文中,我们解决了最近提出的DCF跟踪器的过拟合问题,同时保留了其实时性的能力。
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

图1. 本文方法ECO和基准C-COT在三个示例视频序列的对比。在三个案例中,C-COT在部分目标区域中受到严重的过拟合。这导致了在尺度变化(顶行)、变形(中间一行)和超平面外旋转(底部行)中较差的目标估计。本文的ECO跟踪器成功地解决了过拟合的原因,带来了更好的目标外观模型更新,同时得到了20倍的速度提升。

1.1 研究背景

​ 在目前先进的DCF跟踪器中,我们找到了三个造成计算复杂度增加和过拟合的关键因素:

​ 模型大小:加入了高维特征,如深度特征,导致外观模型参数个数的急剧上升,往往会超过输入图片的维度。例如,C-COT在线学习模型的过程中会持续更新约80万个参数。由于跟踪时训练数据的固有缺乏,这么高维度的参数空间很容易导致过拟合。而且,它会带来计算复杂度上升,降低跟踪速度。

​ 训练集大小:因为依赖于迭代优化算法,前沿的DCF方法都需要存储一个很大的训练样本集,包括C-COT。但是实际中,内存资源时有限的,尤其是使用高维特征时。一个常见的保持合理内存占用的技巧是丢弃时间久的样本。但是,这会造成模型对最近出现的变化过拟合,导致模型漂移(如图1)。而且,大训练样本集会增加计算负担。

​ 模型更新:大多数DCF方法都使用一个连续的学习方式,在每一帧都需要更新模型。但是最近的工作显示,使用孪生神经网络不需要更新模型,也能表现出优异的效果。由这些发现启发,本文认为,DCF中连续更新模型的策略对突然的变化,如比例变动、形变、平面外的旋转(见图1)都非常敏感和过度反应。这一过度更新的方法导致了跟踪速度的以及鲁棒性的下降。

1.2 贡献

​ 针对以上DCF跟踪器存在的问题,我们提出了一个新的方法。首先,提出了因式分解的卷积算子,降低DCF模型中的参数个数,第二个贡献是提出了一个简洁的样本空间内的生成模型,降低训练样本数量的同时保持了样本的差异性。最后,介绍了一个高效的模型更新方法,同时改进追踪速度和鲁棒性。

​ 实验清楚地表明我们的方法在跟踪性能、速度上都有了很大提高,进而在四个跟踪数据集上树立了新的最高水准。与基线比较,本文方法能降低80%的模型参数个数,90%的训练样本,以及80%的优化迭代次数。在VOT2016挑战中,本文方法超过了排名第一的跟踪器C-COT,同时得到了相当高的帧率。并且,我们提出了一个快速版本的跟踪器,在CPU上速度能达到60FPS,可以用于计算受限的机器人平台,保持了竞争优势。

2 基准算法:C-COT

​ 在这项工作中,我们主要解决的问题是当前最先进的DCF跟踪器的计算复杂度和过拟合。我们使用C-COT作为基线模型。C-COT模型在VOT2016上获得了第一名,且在其他跟踪数据集上获得了出色的表现。与标准的DCF不同,Danelljan将滤波器的学习问题放置于一个连续的空间域内。C-COT的生成方式与我们的工作相关的有两个好处:

​ C-COT的第一个优点是可以将不同分辨率的特征图自然地整合起来,在连续域内进行卷积操作;它可以灵活独立地选取每个视觉特征cell的大小,而不需要显示再采样。第二个优点是目标的预测得分通过连续函数直接获取,能够精准地定位子网格。
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

3 本文方法

​ 如前述,DCF学习模式存在过拟合和计算量的瓶颈,我们通过一系列方法来解决,提升性能和速度。

​ 鲁棒的学习:由于训练数据有限,等式(3)中大量的参数优化会造成过拟合。我们引入一个因式分解的卷积操作来缓解此问题,见3.1。这个策略能降低深度特征中80%的模型参数,并能增加追踪准确性。而且我们提出了一个满足样本分布的简洁生成模型,提升数据的多样性,而无需存储大量的数据集,见3.2。最后,我们探索了模型更新策略,并总结出用较少频率的更新滤波器能稳定住训练,使追踪更加的鲁棒。

ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

3.1 分解卷积方法

ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

3.2 生成样本空间模型

ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

图3. 基准方法C-COT(底部行)和我们的方法(顶部行)在训练集上的可视化。在C-COT中,训练集由一组连续样本组成。这使得外观模型只有小量变化时引入大冗余然而先前的外观表现被忘记,这会在最近采样时造成过拟合。相反,我们按高斯混合建模训练数据,每一个模型分量代表外观模型的每一个不同方面。我们的方法追求紧凑却有区别的数据,从而降低过拟合的风险。
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

3.3 模型更新策略

ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

4 实验

​ 我们在四个公开数据集上进行了全面的实验来验证我们提出的方法:VOT2016, UAV123,OTB-2015 以及 TempleColor。

4.1 实现细节

​ 我们的跟踪器是基于 Matlab 实现的。我们使用了和 C-COT 相同的特征表示,即 VGG-m 网络的第一层(Conv-1)和最后一层(Conv-5)卷积层的组合,加上 HOG 和 CN 特征。对于 3.1 小节展示的分解卷积方法,我们对每一种特征学习了一个特征矩阵????。每种特征的设置如表 1 所示。(7)中的正则化权值参数 ???? 被设置为2 · 10−7,损失函数(7)在子问题(9)中在第一帧时使用了 10 次 Gauss-Newton 迭代和 20 次 CG 共轭梯度迭代。在初次迭代时???? = 0,滤波器???? ̂ 0初始化为 0。为了保留跟踪器的决定性,我们用 PCA 来初始化每个稀疏矩阵????0,即使我们发现随机初始化具有相同的鲁棒性。

​ 对于 3.2 小节展示的样本空间模型,我们将学习率设置为???? = 0.012,模型分量的数量设置为???? = 50,这展现了对 C-COT 中使用的样本数量(???? = 400)8 倍的压缩。我们在每???????? = 6帧时更新滤波器(见 3.3 小节),我们使用和 C-COT 相同的共轭梯度迭代次数 ???????????? = 5,注意所有的参数设置对于数据集中所有的视频是保持固定的。

ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

4.2 基础算法比较实验

​ 在这里,我们通过展现我们工作的进步影响分析我们的方法在 VOT2016 上的表现。 VOT2016 数据集由 60 个视频组成,这些视频是从 300 多个视频中集合而成的,评估了性 能(成功跟踪期间的平均重叠)和鲁棒性(失败率)。使用预期平均重叠(EAO)来评估总体性能,EAO 考虑了准确性和鲁棒性。 表 2 展示了我们工作的分析。我们将分解卷积整合到基准算法中,提高了性能,显著降低了复杂度(6×)。样本空间模型进一步提高了性能,EAO 的相对增益提高了 2.9%,同 时降低了 8 倍的学习复杂度。另外,加上我们提出的模型更新方案将 EAO 分数提升到 0.374,导致得到的相对增益比基准算法提高了 13.0%。

​ 表 2 还显示我们的贡献对跟踪器速度的影响。为了进行公平比较,我们在一个 CPU 上测量表中所有条目的 FPS,而不考虑特征提取时间。我们的每一项工作都系统地提高了跟踪器的速度,使跟踪器的速度与基线相比提高了 20 倍。当包含所有步骤(也包括特征提取)时,我们的跟踪器的 GPU 版本以每秒 8 帧的速度运行。

​ 我们发现表 1 中的设置对微小的变化不敏感。通过减少过滤器 C 的数量,可以获得速度上的显著提高,而代价则是性能上的轻微降低。为了进一步分析我们的联合学习分解卷积方法的影响,我们将其与在第一帧中应用 PCA 得到的矩阵????进行比较。PCA 将 EAO 从 0.331 降低到 0.319,而我们的基于判别学习的方法则达到 0.342。

​ 我们观察到当使用相同数量的模型分量和样本(???? = ????),相比于 C-COT 使用的训练样 本集管理方法,我们的样本空间模型提供了更好的结果。对于较少的模型分量/样本时尤其 明显:当在标准方法中把样本数从 ???? = 400 减少到???? = 50,EAO 从 0.342 减少到 0.338 (−1.2%)。相反,当使用???? = 50模型分量的方法时,EAO 增加了+2.9%,达到 0.351。对于 模型的更新,我们注意到当系统的参数????????从 1 增加到 6 时,性能会有提高。当????????进一步增 大时,呈现逐渐下降的趋势。因此,我们在整个实验中使用????????= 6。

4.3 前沿算法比较实验

这里,我们将我们的算法与当下前沿算法在四个跟踪数据集上进行比较。具体的结果见补充材料。
ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)

图4. VOT2016的期望平均覆盖率(EAO)曲线。仅展示了前十名的跟踪器。

**VOT2016 数据集:**在表3中在预期平均重叠(EAO)、鲁棒性、准确性和速度(以EFO为单位)上对比了我们的方法和目前在挑战排名靠前的跟踪器。VOT2016中排名第一的跟踪器C-COT,其EAO分值为0.331,我们的方法相比C-COT在EAO上达到了一个13.0%的提高。而且,我们的ECO跟踪器在保持高竞争力的稳定性的同时收到最好的失败率只有0.72。我们也用EFO,即将速度与硬件性能标准化的一个指标考察了总体的速度。注意EFO同时也把特征提取的时间计算进来,这是独立于DCF改进部分之外的主要的复杂度。在比较中,我们的ECO-HC跟踪器仅使用手动标注特征(HOG和CN)取得了最好的速度。在挑战中排在前三的跟踪器都基于深度特征,其中TCNN以EFO指标取得1.05拿到了最佳速度,我们的深度特征版本ECO与TCNN相比得到了EFO上几乎5倍的提速以及EAO上相对性能15.1%的提升。图4显示了排在前十的EAO曲线。

**UAV123 数据集:**利用无人机进行空中跟踪是近年来备受关注的研究领域,其视觉应用非常广泛,包括野生生物监测、搜救、导航和人群监控等。在这些应用中,需要持续的无人机导航,以便实时跟踪输出功率。在这种情况下,理想的跟踪器应该是准确和健壮的,同时在有限的硬件能力下实时运行,例如CPU或移动GPU平台。因此,我们引入了一个本文方法的实时版本(ECO-HC),基于手工制作的特性(HOG和CN),在一个i7 CPU上以每秒60帧的速度运行(包括特征提取)。

​ 我们在最近推出的用于低空无人机目标跟踪的航空视频基准UAV123上评估了我们的跟踪器。数据集包括123个航拍视频,帧数超过11万。使用成功图对跟踪器进行评估,计算结果为交并集重叠(IOU)超过阈值的帧的百分比。跟踪器使用曲线下面积评分(AUC)进行排名。图5a显示了数据集中123段视频的成功图。我们与[29]中的所有跟踪结果进行比较,并加入Staple,因为其高帧率,以及C-COT进行比较。在排名前5位的跟踪器中,只有Staple实时运行,其AUC指标为45.3%。我们的ECO-HC也能实时运行(60 FPS),AUC得分为51.7%,以6.4%显著优于Staple。C-COT的AUC评分为51.7%。我们的ECO比C-COT好,使用同样的特征,取得53.7%的AUC得分。

ECO论文翻译 Efficient Convolution Operators for Tracking (ECO:用于跟踪的高效卷积运算符)
图5. UAV-123 (a), OTB-2015 (b)和TempleColor© 数据集的覆盖率图。仅展示了前十种跟踪器,我们的算法显著地提升了数据集的先进水平。

**OTB2015 数据集:**我们将我们的跟踪器和20种先进方法进行比较:TLD、Struck、 CFLB、ACT、TGPR、KCF、 DSST、SAMF、MEEM、DAT 、LCT 、HCF、SRDCF、SRDCFad、DeepSRDCF、Staple、MDNet、 SiameseFC、TCNN和C-COT。

图5b显示了OTB-2015数据集中所有100个视频的成功图。在使用手工制作功能进行比较的跟踪器中,SRDCFad提供了最好的结果,AUC分数为63.4%。我们提出的方法是ECO-HC,它也使用了手工制作的特性,性能为65.0%,在CPU上速度达到60FPS。与其他使用深度特征的跟踪器相比,C-COT、MDNet和TCNN的AUC得分最高,分别为69.0%、68.5%和66.1%。我们的ECO方法提供了最好的性能,AUC值为70.0%。

**TempleColor 数据集:**在图5c种我们展示了TempleColor数据集的结果,包括128段视频,我们的方法再次比C-COT表现优异,在AUC上提高了0.8%。

5 结论

​ 我们重新讨论了核心DCF公式,以解决过拟合和计算复杂性的问题。为了减少模型中参数的数量,我们引入了一个因式卷积算子。我们也提出了一种紧凑的训练样本生成模型通过对训练样本的分配来减少记忆和时间的复杂度,同时增强了样本的多样性。最后,我们提出一个不完善但有效的模型更新策略来减少对最近样本的过度拟合。在四个数据集上的实验证明了最新的性能和改进的帧速率。