ECO论文翻译 Efficient Convolution Operators for Tracking （ECO：用于跟踪的高效卷积运算符）

之前阅读了ECO的论文原文并做了翻译，这里将文章分享给大家，第一次用markdown编辑器，有些公式没有重复打了就截图放上来了。
以下是正文：

摘要

近年来，基于判别式相关滤波（DCF）的方法极大地提升了目标跟踪的先进水平。然而，随着跟踪性能的提高，它们的速度和实时性在不断的下降。而且，模型变得原来越复杂，训练参数越来越多，导致了严重的过拟合风险。在本篇论文中，我们要解决的就是计算复杂度过高和过拟合的问题，希望能同时提升速度和性能。

我们再次研究了DCF的核心理论，并介绍了：（i）因式分解的卷积算子，极大地降低了模型的参数个数；（ii）一个紧凑的生成模型，满足训练样本分布，极大地降低内存和时间复杂度且能提供更好的样本多样性；（iii）一种保守模型更新策略，能提升鲁棒性降低复杂度。我们在四个公开数据集上进行了充分的实验：VOT2016，UAV123，OTB-2015以及Temple-Color。当我们使用计算成本昂贵的深度特征时，与VOT2016挑战赛中的顶尖方法比较，本文的跟踪器能提供加速20倍，在Expected Average Overlap 上获得13%的提升。而且，跟踪器的一个使用人工特征的加速版本在CPU上可达到60Hz，在OTB-2015上获得了65%的AUC。

1 介绍

视觉追踪是计算机视觉领域最基本的任务。这是一种只给定目标的初始状态，在一系列图片中估计目标的轨迹的任务。在众多的实时视觉应用中，在线视觉跟踪扮演着重要角色，如智能监控系统、自动驾驶、无人机监控、智能交通管控、人机接口等。在实时的视觉系统中，尽管有各种计算上的限制，理想的跟踪器应该是精确的、鲁棒的。

近些年，基于DCF的方法不断地在提升追踪benchmarks上的准确率和鲁棒性。基于DCF的方法能带来性能的提升主要是使用了多维特征，鲁棒的比例预估，非线性核，长时记忆组件，高效的学习模型，以及边界效应的降低。然而，这些精度的提高时以大量的跟踪速度为代价的。例如，最早先的MOSSE 跟踪器比VOT2016挑战中排名最高的DCF跟踪器C-COT要快1000倍，但只有其一半的准确率。

如上述所说，DCF性能的提升主要是因为特征强大和高效的学习模型。这导致了模型庞大，需要成百上千个训练参数。另一方面，这么复杂的模型也有可能带来过拟合。在本文中，我们解决了最近提出的DCF跟踪器的过拟合问题，同时保留了其实时性的能力。
ECO论文翻译 Efficient Convolution Operators for Tracking （ECO：用于跟踪的高效卷积运算符）

图1. 本文方法ECO和基准C-COT在三个示例视频序列的对比。在三个案例中，C-COT在部分目标区域中受到严重的过拟合。这导致了在尺度变化（顶行）、变形（中间一行）和超平面外旋转（底部行）中较差的目标估计。本文的ECO跟踪器成功地解决了过拟合的原因，带来了更好的目标外观模型更新，同时得到了20倍的速度提升。

1.1 研究背景

在目前先进的DCF跟踪器中，我们找到了三个造成计算复杂度增加和过拟合的关键因素：

模型大小：加入了高维特征，如深度特征，导致外观模型参数个数的急剧上升，往往会超过输入图片的维度。例如，C-COT在线学习模型的过程中会持续更新约80万个参数。由于跟踪时训练数据的固有缺乏，这么高维度的参数空间很容易导致过拟合。而且，它会带来计算复杂度上升，降低跟踪速度。

训练集大小：因为依赖于迭代优化算法，前沿的DCF方法都需要存储一个很大的训练样本集，包括C-COT。但是实际中，内存资源时有限的，尤其是使用高维特征时。一个常见的保持合理内存占用的技巧是丢弃时间久的样本。但是，这会造成模型对最近出现的变化过拟合，导致模型漂移（如图1）。而且，大训练样本集会增加计算负担。

模型更新：大多数DCF方法都使用一个连续的学习方式，在每一帧都需要更新模型。但是最近的工作显示，使用孪生神经网络不需要更新模型，也能表现出优异的效果。由这些发现启发，本文认为，DCF中连续更新模型的策略对突然的变化，如比例变动、形变、平面外的旋转（见图1）都非常敏感和过度反应。这一过度更新的方法导致了跟踪速度的以及鲁棒性的下降。

1.2 贡献

针对以上DCF跟踪器存在的问题，我们提出了一个新的方法。首先，提出了因式分解的卷积算子，降低DCF模型中的参数个数，第二个贡献是提出了一个简洁的样本空间内的生成模型，降低训练样本数量的同时保持了样本的差异性。最后，介绍了一个高效的模型更新方法，同时改进追踪速度和鲁棒性。

实验清楚地表明我们的方法在跟踪性能、速度上都有了很大提高，进而在四个跟踪数据集上树立了新的最高水准。与基线比较，本文方法能降低80%的模型参数个数，90%的训练样本，以及80%的优化迭代次数。在VOT2016挑战中，本文方法超过了排名第一的跟踪器C-COT，同时得到了相当高的帧率。并且，我们提出了一个快速版本的跟踪器，在CPU上速度能达到60FPS，可以用于计算受限的机器人平台，保持了竞争优势。

2 基准算法：C-COT

在这项工作中，我们主要解决的问题是当前最先进的DCF跟踪器的计算复杂度和过拟合。我们使用C-COT作为基线模型。C-COT模型在VOT2016上获得了第一名，且在其他跟踪数据集上获得了出色的表现。与标准的DCF不同，Danelljan将滤波器的学习问题放置于一个连续的空间域内。C-COT的生成方式与我们的工作相关的有两个好处：

C-COT的第一个优点是可以将不同分辨率的特征图自然地整合起来，在连续域内进行卷积操作；它可以灵活独立地选取每个视觉特征cell的大小，而不需要显示再采样。第二个优点是目标的预测得分通过连续函数直接获取，能够精准地定位子网格。
ECO论文翻译 Efficient Convolution Operators for Tracking （ECO：用于跟踪的高效卷积运算符）

3 本文方法

如前述，DCF学习模式存在过拟合和计算量的瓶颈，我们通过一系列方法来解决，提升性能和速度。

鲁棒的学习：由于训练数据有限，等式（3）中大量的参数优化会造成过拟合。我们引入一个因式分解的卷积操作来缓解此问题，见3.1。这个策略能降低深度特征中80%的模型参数，并能增加追踪准确性。而且我们提出了一个满足样本分布的简洁生成模型，提升数据的多样性，而无需存储大量的数据集，见3.2。最后，我们探索了模型更新策略，并总结出用较少频率的更新滤波器能稳定住训练，使追踪更加的鲁棒。