元学习----Meta-Tracker: Fast and Robust Online Adaptation for Visual

Abstract

这篇论文改进了最先进的使用在线适应的视觉对象跟踪器。(MDNET,Crest)我们的核心贡献是一种基于离线mete-learning-based的方法，用于调整在线适应跟踪中使用的初始深度网络。元学习是由深层网络的目标驱动的，深层网络可以在未来的框架中快速地适应对特定目标的鲁棒建模。理想情况下，得到的模型关注于对未来帧有用的特性，避免对背景杂波、目标的小部分或噪声的过度拟合。通过在元收益期间强制执行少量的更新迭代，得到的网络训练速度显著提高。我们在高性能跟踪方法的基础上演示了这种方法:基于MDNet[1]的跟踪检测和基于相关性的CREST[2]。在标准基准OTB2015[3]和VOT2016[4]上的实验结果表明，我们的元学习版本的跟踪器提高了速度、准确性和鲁棒性。

1.Introduction

视觉目标跟踪是在给定初始帧目标边界框的图像帧序列上精确定位目标对象的任务。在视觉目标跟踪中，与其他目标识别任务如目标分类和检测相比，实例级识别是一个重要的因素。例如，一个感兴趣的目标可以是人群中的一个特定的人，或者一个更广泛的类别中的一个特定的产品(如可乐罐)。因此，准确的目标跟踪器不仅要能够从背景杂波和其他类别的目标中识别出一般的目标，还要能够从可能属于同一类别的相似干扰物中识别出特定的目标。此外，在跟踪过程中学习的模型应该是灵活的，以考虑由于视角变化、遮挡和变形而导致的目标外观变化。
应对这些挑战的一个方法是应用在线适应。跟踪过程中目标的模型，如DCF (discriminative correlation filter)或二分类器(object vs background)，在asequence的第一帧初始化，然后更新以适应后续帧的目标外观[1、2、5、6、7、8、9、10]。随着强大的通用深度学习表示法的出现，最近的*跟踪器现在利用了两个共同的优点:深度学习特性和在线适应方法。也有人建议使用经过深度训练的离线追踪器，其结果令人满意，速度也很快，但与最先进的在线自适应追踪器相比，准确性有所下降[11、12、13]，这可能是由于难以准确识别视频中的特定实例。
将深度学习特性和在线适应相结合的一个常见实践是在深度学习特性的基础上训练目标模型，并在大型数据集上进行预训练。这些预先训练的特性已经被证明是一种强大而广泛的表示，可以识别许多通用对象，从而使目标模型的有效训练能够集中于指定的目标实例。尽管这种方法迄今为止取得了最好的效果，但仍有几个重要问题有待解决。

首先，可用的训练示例非常少。在初始帧中，我们给目标一个边界框。在随后的帧中，跟踪器会收集额外的图像，但许多图像是多余的，因为它们本质上是相同的目标和背景。此外，最近的趋势是为目标外观构建深度模型[1,2]，这使得问题更具挑战性，因为深度模型很容易在小数据集上过度拟合。因此，在深入学习的特征上训练的目标模型有时会受到影响，因为它与背景杂波、目标的小部件或特征或噪声不匹配。许多最近的研究提出了各种各样的方法来解决这些问题。其中包括使用大量带有侵略性正则化器[1]的阳性和阴性样本，分解卷积[6]，空间剩余模块[2]，或合并上下文信息[14]。
其次，最先进的跟踪器在初始训练阶段花费了大量的时间[1,2,6]。虽然已有许多工作提出了快速训练方法[6,7]，但这仍然是一个瓶颈。在目标跟踪的许多实际应用中，如监视，需要实时处理。根据应用程序的不同，在初始帧上落后可能意味着整个任务失败。另一方面，一个未完全训练的初始目标模型可能会影响未来帧的性能，或者在最坏的情况下，导致所有后续帧的失败。因此，在初始帧快速获取鲁棒目标模型是非常必要的

在这项工作中，我们提出了解决这些挑战的一般性和原则性的方法。受最近元学习(learning to learn)研究的启发[15,16,17,18,19,20]，我们寻求学习如何获得目标模型。关键的思想是用一种可以在未来框架中很好概括的方式来训练目标模型。在之前的所有工作中[1、2、5、6、7、8、9、10]，对目标模型进行训练，使当前帧上的损失函数最小化。即使模型达到了最优解，也并不一定意味着它在未来的框架中可以很好地工作。相反，我们建议使用来自未来帧的错误信号。在元训练阶段，我们的目标是找到一个通用的初始表示和梯度方向，使目标模型能够专注于对未来帧有用的特性。此外，这个元训练阶段有助于避免在当前框架中过度拟合干扰项。此外，通过在元训练期间强制执行更新迭代的次数，得到的网络在初始化期间的训练速度要快得多。
我们提出的方法可以应用于任何基于学习的跟踪器，只需稍作修改。我们从基于分类器的跟踪器(跟踪检测)类别和基于相关性的跟踪器CREST[2]中选择了两个最先进的跟踪器MDNet[1]。实验结果表明，我们的元学习版本的跟踪器可以非常快速地适应第一帧，只需迭代一次，同时提高了准确性和鲁棒性。请注意，即使没有使用一些手工设计的训练技术、复杂的体系结构设计和原始跟踪器的超参数选择，也可以做到这一点。** 简而言之，我们提供了一种简单的方法，使非常好的跟踪器更好，而且不需要太多的工作，并在两种不同的跟踪体系结构上展示了它的成功，这表明它具有潜在的普遍适用性。 **

2 Related Work

在线跟踪器:许多在线跟踪器使用相关滤波器作为算法的基础，因为它的计算效率和鉴别能力。从早期成功的MOSSE跟踪[10]，大量的变化已经提出。[7]通过提取循环矩阵的advantage使其更高效，通过解决人工边界问题进一步改进[21,22]。通过使用上下文信息[14、23]、短期和长期记忆[24、25]以及尺度估计26，已经解决了许多棘手的问题。近年来，深度学习特征开始在相关滤波器中发挥重要作用[1,2,5,6,8,27,28]。另一方面，跟踪检测方法通常学习一个分类器来挑选围绕目标对象的正图像块。[9]率先提出了多种学习技术，如多实例学习[29]、结构化输出支持向量机[30]、在线增强[31]、模型集成[32]等。最近，MDNet[1]具有深度特征和深度分类器，实现了更高的精度
离线跟踪器:最近的几项研究表明，由于强大的深度学习功能，我们可以在不需要在线适应的情况下构建精确的跟踪器[11,12,13]。Siamese-style network采用小目标图像patch和大搜索图像patch，直接对目标位置[12]进行退化，或者通过相关层[33]生成响应映射[11]。为了考虑时间信息，在[34,35,36,37]中也研究了周期性网络.
元学习:这是机器学习及其应用的一个新兴领域。虽然这并不是一个新的概念[38,39,40,41]，但是最近的许多著作在深度学习成功的同时也显示出了非常有前景的结果。[17,42,43,44]试图用元学习深度网络代替手工优化算法。[16]将这一思想引入到“几杆”或“一杆”学习问题中。它的目的是学习最优的更新策略，基于学习者在学习元学习者的策略时，在很少训练例子的情况下，学习者对测试图像分类的准确性。[15]没有删除现有的优化算法，而是专注于学习最适合现有算法的初始化。随着初始化的进行，[19]进一步学习现有优化算法的参数。与上述方法不同的是，也有一些研究不经过优化过程直接预测模型参数[37,45,46]。元学习----Meta-Tracker: Fast and Robust Online Adaptation for Visual
图1:我们的视觉对象跟踪元训练方法:元训练对象跟踪器的计算图。对于每一次迭代，它都会获得第一帧之后的梯度，然后由元更新器使用这些梯度更新跟踪器的参数。为了增加稳定性和鲁棒性，最后的损失是使用一个未来的框架来计算梯度w,r,t参数的元初始化和元更新。更多细节见第3节。

3 Meta-Learning for Visual Object Trackers

在这一节中，我们将解释为视觉对象跟踪器提出的通用元训练框架。将其应用到每个跟踪器的详细信息见第4节。

3.1 Motivation

一个典型的跟踪事件是这样的:在一个序列的初始帧中，跟踪模型被调整到目标周围的一个指定的边界框中。积极的调整器和快速的优化技术被采用，以允许这种适应/训练快速完成，从而得到的模型对目标变化和环境变化具有鲁棒性。然后利用跟踪模型对后续帧的目标位置进行预测。然后将预测的目标位置和图像存储在数据库中，模型根据自己的策略定期更新收集到的数据。
一个关键的动机是将这些实际的跟踪场景合并到元学习过程中。跟踪器的最终目标是预测未来帧的目标位置因此，为了实现这个最终目标，最好是学习跟踪器。例如，如果我们可以看到未来帧的变化，那么我们就可以构建更健壮的目标模型，并防止它们与当前目标外观或背景杂波过度匹配。我们可以退一步，观察视频上运行的跟踪器，看看跟踪器是否归纳的很好，找出它们分心的原因，调整适应程序相应的行动。元学习----Meta-Tracker: Fast and Robust Online Adaptation for Visual

3.2 A general online tracker

这一公式的在线跟踪是通用的，以适用于各种跟踪器。考虑一个追踪者的关键操作,ˆy = F (x,θ),这需要一个输入x,例如图像补丁在目标或裁剪图像集中在假定的目标从一个图像,和追踪参数θ和产生估计ˆy的标签,如响应映射或位置的框架表示目标的位置。初始化,从初始帧I0 x0指定y0,我们(大约)解θ1 (x0, y0),或为简洁起见,θ1损失,L (F x0,θ1),y0)测量的模型预测指定的标签。更新跟踪期间,我们从帧参数θj j−1并找到ˆyj = F (xj,θj),然后找到θj + 1对损失。然后,我们可能将ˆyj合并到一个特定的估计目标位置以及时间平滑,等等。我们可以把用x0和y0初始化的跟踪过程写在一个初始帧中，然后跟踪和更新帧I1…在跟踪(θ1 (x0, y0), I1,。)和它的输出作为标签的ˆyn估计第n帧(指示目标位置)和θn + 1, n帧后的模型参数

3.3 Meta-training algorithm

我们的元培训方法有两个目标。是初始化一个跟踪器在一个序列可以被开始执行θ0和应用一个或少量的迭代更新函数的M参数化α。另一个目标是得到的跟踪器在以后的帧上是准确和健壮的。元学习----Meta-Tracker: Fast and Robust Online Adaptation for Visual
α是同样大小的跟踪参数θ[19],L损失function, element-wise product.吗α是一个标量值,这可能是可学的[20]或手动固定[15]。根据经验，我们发现每个参数系数是最有效的设置
meta-training算法来找到一个好的θ0和α多次采样视频,执行初始化,应用学到的初始模型的框架略高于序列,然后back-propagating更新θ0和α。将初始模型应用于序列中稍微提前的帧有两个目标，模型应该足够健壮以处理更多的帧到帧的变化，如果是这样，在跟踪过程中也应该快速更新，如果不需要修正太多。
从一个随机抽样随机起始帧后视频,我们执行优化初始化开始θ0 0 =θ0考虑到转换的输入和输出对,(xj, yj)。优化的步骤如下元学习----Meta-Tracker: Fast and Robust Online Adaptation for Visual
这一步可以重复了一个预定义的次数T,θ1 (xj, yj) =θT0。然后,我们随机样本未来帧Ij +δ和评估模型训练的初步框架,未来帧产生:ˆyj +δ= F (xj +δ,θ1)。
较大的δ,更大的目标对象变化和环境变化纳入培训过程。现在，我们可以根据未来的帧数和训练后的跟踪器参数来计算损耗。目标函数定义为元学习----Meta-Tracker: Fast and Robust Online Adaptation for Visual
我们使用ADAM[47]梯度下降算法进行优化。注意,θ0和α是固定在不同的情节mini-batch,但是θ1 0,。在每一集,θT0都改变了。计算目标函数wr的梯度。tθ0和α,应计算高阶梯度(函数的梯度渐变)。这种计算方法在最近的研究中得到了应用[15,48,49]。我们可以很容易地计算这个，这要感谢自动微分软件库[50]。更多的细节在算法1中有解释
更新后续帧的规则
大多数在线跟踪器，包括我们元训练的两个跟踪器(第4节)，定期更新目标模型，以适应跟踪过程中自己收集的新示例。我们可以简单地使用meta-trainedα更新model,θj =θj−1−α∇θj−1 L (only brevity).提出一个迭代然而，它常常在较长的序列或具有非常小的帧间变异的序列上发散。我们认为这主要是因为我们训练α快速适应在初始帧,所以α的值相对较大,导致不稳定的收敛行为(类似的现象在[20]尽管在不同的上下文中)。Sinceα稳定与θ0,时我们可以定义更新规则对后续帧θj =θ0−α∇θ0 L,[20].建议We也可以组合两个strategies,θj =β(θj−1−α∇θj−1 L) +(1−β)(θ0−α∇θ0 L). Although我们可以解决不稳定收敛行为与这些strategies,这些表现好于简单地寻找一个单一的学习。因此，我们找到后续帧的学习率，然后使用现有的优化算法来更新模型，就像在原始版本的跟踪器中所做的那样元学习----Meta-Tracker: Fast and Robust Online Adaptation for Visual