【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

High-Performance Long-Term Tracking with Meta-Updater

使用元跟新器进行高性能长期跟踪

该篇论文为CVPR2020(Oral) ，这个作品是VOT2019-LT获胜者的改进版本。
pdf
code

摘要：

长期视觉跟踪越来越受到关注，因为它比短期跟踪更接近于实际应用。大多数排名靠前的长期追踪者都采用了离线训练的Siamese架构，因此他们无法从短期追踪者在线更新的巨大进步中获益。然而，直接引入基于在线更新的跟踪器来解决长期问题是相当冒险的，因为长期的不确定和嘈杂的观察。在这项工作中，我们提出了一个新颖的离线训练元更新，以解决一个重要但尚未解决的问题:跟踪器是否准备在当前帧更新?提出的元更新器可以有效地将几何线索、判别线索和外观线索按顺序整合在一起，然后利用设计的级联LSTM模块对序列信息进行挖掘。我们的元更新学习二进制输出引导跟踪器的更新，可以很容易地嵌入到不同的跟踪器。该工作还引入了一个由在线本地跟踪器、在线验证器、基于SiamesRPN的重新检测器和我们的metaupdater组成的长期跟踪框架。在VOT2018LT、VOT2019LT、OxUvALT、TLP和LaSOT基准上的大量实验结果表明，我们的跟踪器性能显著优于其他竞争算法。我们的项目可以在网站上找到: github。

【论文翻译】High-Performance Long-Term Tracking with Meta-Updater
图1所示。VOT2019LT上有代表性的长期跟踪结果的可视化和比较。ATOM是基于ATOM[9]的本地跟踪器，our表示使用元更新的长期跟踪器。ATOM它意味着我们没有元更新器。CLGS和SiamDW LT是VOT2019LT上第二和第三好的跟踪器。详情请参阅第3及4节。

1. 介绍

视觉跟踪的研究已经开始从短期跟踪转向大规模的长期跟踪，大致有两个原因。首先，长期跟踪比短期跟踪更接近实际应用。短期跟踪基准测试(OTB[46]、VOT2018[23]、TC128[31]等)中的序列的平均长度通常处于第二级，而长期跟踪数据集(如VOT2018LT[23]、VOT2019LT[24]和OxUvALT[42])中的平均帧长至少处于分钟级。其次，长期跟踪任务还需要跟踪器具有处理频繁消失和重新出现的能力。有较强的再检测能力。基于深度学习的方法已经主导了短期跟踪领域[30,47,35]，从一次性学习[41,2,15,28,26,12,53,29]或在线学习[37,10,8,21,40,7,49,50,9]的角度来看。通常，后一种方法(如ECO[8]、ATOM[9])比前一种方法(如SiamFC[2]、SiamRPN[28])更精确(训练数据更少)，但速度更慢。一个奇怪的现象是，很少有领先的长期跟踪机构利用在线更新的短期跟踪机构进行本地跟踪。VOT2018LT的获胜者MBMD[51]利用一个离线训练的回归网络直接将目标s边界盒回归到一个局部区域，并使用一个在线的验证器使跟踪器在局部跟踪和全局重新检测之间进行切换。最近的SPLT[48]方法在[51]中使用相同的SiamRPN模型进行局部跟踪。OxUvALT报告中最好的方法SiamFC+R[42]为原始SiamFC[2]配备了一个简单的重新检测方案。一个重要的原因是，在线更新对于跟踪来说是一把双刃剑。在线更新捕捉目标和背景的外观变化，但不可避免地会用噪声样本污染模型。由于长期不确定的观察，在线更新的风险被长期跟踪放大了。

在上述分析的激励下，本研究试图从两个方面提高长期跟踪性能。首先，我们设计了一个长期跟踪框架，利用在线更新的跟踪器进行本地跟踪。如图1所示，通过将ATOM扩展到一个长期跟踪器(ATOM LT)，跟踪性能得到了显著提高，但仍然比CLGS和SiamDW LT方法差。其次，我们提出一种新颖的元更新器来有效地引导跟踪器的更新。图1显示了在添加了我们的元更新器之后，所提出的跟踪器获得了非常有前途的跟踪结果。
我们的主要贡献可以总结如下：

提出了一种新的离线训练的元更新器来解决一个重要但尚未解决的问题:跟踪器是否准备在当前帧中进行更新?所提出的元更新器有效地指导了在线跟踪器的更新，不仅方便了所提出的跟踪器，而且具有良好的泛化能力。
在基于siamrpc的重新检测器、在线真实感测试器和带有元更新器的在线本地跟踪器的基础上，引入了一个长期跟踪框架。与其他方法相比，我们的长期跟踪框架可以受益于在线更新的低风险短期跟踪的优势。
在VOT2018LT、VOT2019LT、OxUvALT、TLP和LaSOT长期基准上的大量实验结果表明，该方法的性能大大优于最先进的跟踪器。

2. 相关工作

2.1 长期的视觉跟踪

虽然大规模的长期跟踪基准[23,42]从2018年开始出现，但长期跟踪任务(如基于关键点的[17]、基于提案的[54]、基于探测器的[22,32]等)一直受到研究者的重视。经典算法是跟踪学习检测(TLD)方法[22]，它将长期跟踪作为本地跟踪器(具有前向-后向光流)和全局再检测器(具有弱分类器集成)的组合。基于这个想法，许多研究人员[34,32,42]尝试使用不同的本地跟踪器和不同的全局重新检测器来处理长期跟踪问题。其中局部跟踪器和全局重检器也可以采用同样强大的模型[32,26,51,48]，并配备了重检方案(如随机搜索和滑动窗口)。这些跟踪器的一个关键问题是如何在本地跟踪器和全局重检器之间切换跟踪器。通常，他们使用本地跟踪器的输出进行自我评估，即，以确定跟踪器是否丢失目标。这种方式有很高的风险，因为本地跟踪器的输出并不总是可靠的，有时会意外地误导切换器。MBMD方法[51]是VOT2018LT的获胜者，它通过额外的在线更新深度分类器进行本地和全局切换。该跟踪器利用一个基于siamprn的网络，在重新检测时在局部搜索区域或每个滑动窗口中对目标进行回退。最近的SPLT方法[48]利用[51]中相同的SiamPRN进行跟踪和重新检测，用离线训练的匹配网络代替[51]中的在线验证器，并使用他们提出的skimming模块加速跟踪器。一个奇怪的现象是，大多数排名靠前的长期跟踪器(如MBMD[51]、SPLT[48]、SiamRPN++[26])并没有采用优秀的在线更新跟踪器(如ECO[8]、ATOM[9])进行本地跟踪。其中一个根本原因是，在线更新的风险是放大的长期跟踪，造成长期不确定的观察。在这项工作中，我们试图通过设计一个高性能的带有元更新器的长期跟踪器来解决这个难题。

2.2 视觉跟踪的在线更新

对于视觉跟踪来说，在线更新对于捕获目标及其周围背景在跟踪过程中的外观变化起着至关重要的作用。为了实现这一目标，已经设计了许多方案，例如使用模板更新[6,55,29]、增量子空间学习[39,43]、在线学习分类器[16,37,8,9]等。然而，在线更新在平衡动态信息描述和意外噪声引入方面是一把双刃剑。长时间积累误差，在目标消失时收集不适当的样本或对可用数据过度拟合，容易降低跟踪器的性能，导致跟踪漂移，特别是长期跟踪。为了解决这一困境，至少从两个方面做了很多努力。第一种方法是通过恢复或聚类噪声观测值来提取在线采集的样本[43,8]。另一个有效的尝试是设计一些标准来评估当前跟踪结果的可靠性，以删除不可靠的样本或拒绝不适当的更新。这些标准包括信心评分[37]、最大响应[9]、峰值旁瓣率(PSR)[9]、平均峰值相关能量[44]和MAX-PSR[32]。

这些方法通常利用跟踪器的输出来评估这种可靠性。但对跟踪器输出可靠性的自我评估存在着不可避免的风险，尤其是当跟踪器经历了长期的不确定和噪声观测时。在这项工作中，我们提出了一个新颖的离线训练元更新，以整合多个线索的顺序方式。元更新器输出一个二进制分数来指示跟踪器在当前帧中是否应该更新，这不仅显著提高了我们的长期跟踪器的性能，而且很容易嵌入到其他在线更新的跟踪器中。最近，一些基于元学习的方法[25,38,27,18,5,29]被提出。所有这些方法都集中于解决如何更新问题(例如，，有效地和/或有效地更新跟踪器外观模型)。相比之下，我们的元更新器设计用来处理何时更新的问题，它可以与许多如何更新算法相结合，进一步提高跟踪性能。

【论文翻译】High-Performance Long-Term Tracking with Meta-Updater
图2。建议的长期跟踪框架。更好地观看与放大的颜色。

3. 用元更新器进行长时期跟踪

3.1 长时期跟踪框架

总体框架如图2所示。在每一帧中，本地跟踪器将本地搜索区域作为输入，并输出被跟踪对象的边界框。然后，验证器对当前跟踪结果的正确性进行评估。如果输出验证分数大于预定义的阈值，跟踪器将在下一帧继续进行本地跟踪。如果分数小于阈值，我们使用更快的R-CNN检测器[4]来检测下一帧中所有可能的候选对象，并裁剪关于每个候选对象的局部搜索区域。然后，SiamPRN模型[51]将每个区域作为输入和输出对应的候选框。这些边界框被发送给验证者以识别目标是否存在。当验证者找到目标时，本地跟踪器将被重置以适应当前目标的外观。在进入下一个框架之前，收集所有历史信息并将其发送到建议的元更新器中。最后，元更新器引导在线跟踪器更新。

在本工作中，我们实现了一个改进的ATOM跟踪器(记作ATOM)作为我们的本地跟踪器，它应用ATOM方法的分类分支进行定位，利用SiamMask方法进行尺度估计(在原始ATOM方法[9]中，通过离线训练的实例感知IoUNet[20]进行尺度估计。在实践中，我们发现SiamMask方法[45]可以提供更准确的尺度估计，部分原因是像素级注解的强大监督)。我们使用RTMDNet方法[21]作为我们的验证器，其验证阈值设置为0。

力量和缺陷。与目前排名靠前的长期跟踪器(如MBMD[51]和SPLT[48])相比，我们的框架的主要优势在于将在线更新的本地跟踪器嵌入到长期跟踪框架中。这种思想使得长期跟踪解决方案受益于短期跟踪器的进步，并尽可能地将短期跟踪问题和长期跟踪问题统一起来。不完善之处在于，在线更新的风险由于长期不确定的观察而被放大(因为除了第一帧之外的任何帧的结果在跟踪过程中都没有绝对的准确性)。因此，我们提出一种新的元更新器来处理这个问题，并获得更鲁棒的跟踪性能。

3.2 元更新器

更新跟踪器以捕获目标及其周围背景的外观变化是非常重要的。然而，不适当的更新将不可避免地使跟踪器退化并导致跟踪漂移。为了解决这个难题，我们试图回答一个重要但尚未解决的问题:跟踪器是否准备好在当前帧中进行更新?具体来说，我们提出了一个MetaUpdater，通过集成历史跟踪结果来决定当前是否应该更新跟踪器。这些历史结果以顺序的方式包括几何线索、辨别线索和外观线索。我们在每个帧输出响应映射(例如ECO[8]、ATOM[9])的在线跟踪器的基础上引入了我们的元更新器。很容易将我们的metaupdater推广到其他类型的跟踪器(例如MDNet[37])。

3.2.1 元更新器的序列信息

对于一个在线跟踪器T，在第T帧中，我们将输出响应映射表示为Rt，将输出边界框表示为bt，将结果图像(根据bt裁剪)表示为bt。第一帧中的目标模板表示为I0。图3给出了一个直观的解释。

【论文翻译】High-Performance Long-Term Tracking with Meta-Updater
图3。本书对一些概念的直观解释。

我们通过挖掘顺序信息，在给定的时间片内集成几何、区分和外观线索来开发元更新器。

【论文翻译】High-Performance Long-Term Tracking with Meta-Updater
图4。用有代表性的框架说明不同的信心分数。更好地观看与放大的颜色。

几何线索。在第t帧中，跟踪器输出一个边界框 $b_t = [x_t, y_t, w_t, h_t]$ 作为跟踪状态，其中(x, y)表示左上角的水平坐标和垂直坐标，(w, h)表示目标的宽度和高度。这个包围框本身仅反映当前帧中被跟踪对象的几何形状。然而，一系列连续帧的边界框包含了关于目标的重要运动信息，例如速度、加速度和尺度变化。

判别线索。视觉跟踪可以看作是一种区分目标与其周围背景的分类任务，因此，在线跟踪器本身就应该具有良好的识别能力。我们定义一个confidence score $s_t^C$ 作为response map $R_t$ 的最大值(1)。对于一些不输出任何response map的跟踪器(例如MDNet[37])，根据分类概率或margin也不难得到这个confidence score。
$s_t^C = max(R_t) \qquad \qquad \qquad \qquad (1)$

从图4可以看出，在跟踪过程中，置信度得分并不稳定(见89- 261帧)。在本工作中，我们还利用卷积神经网络(convolutional neural network, CNN)来彻底挖掘响应映射中的信息，得到响应向量 $v_t^R$ as

$v_t^R = f^R(R_t; W^R) \qquad \qquad \qquad \qquad (2)$

式中: $f^R(. ; .)$ 表示CNN模型，参数为 $W^R$ 。输出矢量 $v_t^R$ 在当前帧内隐式编码跟踪器的可靠性信息，并由后续模型进一步处理。

外观信息。跟踪器输出可靠性的自我评估具有不可避免的风险，因为带有噪声样本的在线更新常常使响应对外观变化不敏感。因此，我们求助于模板匹配方法作为一个重要的补充，并定义一个外观评分为

$s_t^A = \parallel f^A (I_t, W^A) - f^A(I_0, W^A)\parallel_2 \qquad \qquad (3)$

【论文翻译】High-Performance Long-Term Tracking with Meta-Updater
图5。提出的三级级联LSTM。

这里 $f^A(., W^A)$ 是将目标和候选者嵌入到判别的欧几里得空间中的嵌入函数， $W^A$ 代表的离线训练的网络参数。就像在[33]中提出的，网络 $f^A(., W^A)$ 可以结合triplet损失和分类损失函数来有效地训练。分数 $s_t^A$ 度量的是跟踪结果 $I_t$ 和目标模板 $I_0$ 之间的距离。该模板匹配方案不受噪声观测的影响。

顺序的信息。我们将前面提到的几何线索、判别线索和外观线索整合到一个序列矩阵中，得到 $X_t = [x_{t-t_s+1};...;x_{t-1};x_t] \in R^{d \times t_s}$ ;其中 $x_t \in R^{d \times 1}$ 为 $s_t^C$ 、 $v_t^R$ 、 $s_t^A$ 、 $b_t$ 集中的列向量，d为集中线索的维数， $t_s$ 为平衡历史经验与当前观测的时间步长。使用以下级联LSTM方案进一步挖掘这些顺序信息。

3.2.2 级联的LSTM

LSTM. 在这里，我们简要介绍LSTM[14]的基本思想和概念，以使本文自成一体。它的数学描述如下。
$\left \{ \begin{aligned} f_t & = \delta (W_f x_t + U_f h_{t-1} +b_f) \\ i_T & = \delta (W_i x_t + U_i h_{t-1} +b_i) \\ o_t &= \delta (W_o x_t + U_o h_{t-1} + b_o) \\ c_t &= f_t \odot c_{t-1} + i_t \odot tanh(W_c x_t + U_c h_{t-1} + b_c) \\ h_t &= o_t \odot tanh(c_t) \end{aligned} \right.$

这里 $\delta(\cdot)$ 表示元素级的sigmoid 函数， $tanh(\cdot)$ 表示元素方向的切操作， $\odot$ 是按元素乘法。W, U 和 b表示需要学习的权重矩阵和偏置向量。下标f、i、o和c分别代表遗忘门、输入门、输出门和存储单元。其他变量定义如下：
(a) $x_t$ : LSTM 单元的输入向量；
(b) $f_t$ : 忘记门的**向量；
© $i_t$ : 输入门的**向量；
(d) $o_t$ : 输出门的**向量；
(e) $h_t$ : 隐藏状态向量；
(f) $c_t$ : cell状态向量；

3级级联的LSTM. 在获得了第3.2.1节中给出的序列特征 $X_t$ 之后，我们将其输入到一个三级级联LSTM模型中，如图5所示。三个LSTMs的时间步长逐渐减小，提取序列信息，聚焦于最近帧。投入产出关系如表1所示。上标i表示第i阶段LSTM。

【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

最后，输出的 $h_t^3$ 由两个完全连通的层进行处理，生成一个二分类分数，表示是否对跟踪器进行更新。

3.2.3 元更新器训练

样本收集。我们在不同的训练视频序列上运行本地跟踪器，并记录所有帧的跟踪结果。然后，我们将这些结果分成一系列的时间片，表示为 $\Upsilon =(Y_t^{\upsilon}|_{t=t_s}^{t_{\upsilon}})|_{\upsilon=1}^V$ . $\upsilon$ 为视频索引，V是训练序列的数目， $t_{\upsilon}$ 是第 $\upsilon$ 个视频的总帧长。 $Y_t^{\upsilon} = {y_{t-t_s+1}^{\upsilon}, y_{t-t_s+2}^{\upsilon},...,y_{t-1}^{\upsilon}, y_t^{\upsilon} }$ ,这里 $t_s$ 表示时间步长。每个时间片段 $y_t^{\upsilon}$ 包含边界框、相应map、相应分数和在t帧中预测的目标图像，以及相应的目标模板。有关更详细的描述，请参见第3.2.1节。

然后，我们确定 $Y_t^{\upsilon}$ 的标签为：
$\iota(Y_t^{\upsilon}) = \left \{ \begin{aligned} 1, &if IOU(b_t^{\upsilon}, g_t^{\upsilon}) > 0.5 \\ 0,& if IOU(b_t^{\upsilon}, g_t^{\upsilon}) = 0 \end{aligned} \right.$

其中IoU为相交-过并准则。在训练阶段没有采用iou在0到0.5之间的切片，以保证训练的收敛性。 $b_t^{\upsilon}$ 为视频v第t帧的输出边界框，gvt为相应的groundtruth5。式(4)表示给定时间片的标签是根据目标是否成功定位在当前(即,t)框架。图6显示了用于训练我们的元更新程序的一些正面和负面示例。

【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

模型的训练。在本研究中，局部追踪器和它的元更新器是紧密耦合的。跟踪器影响样本收集过程，以训练它的元更新器。元更新器会改变跟踪器的性能，进而间接影响样本采集。因此，我们提出了一种迭代训练算法，如算法1所示。符号{T,MU (T)}用于表示一个装备有元更新器MU (T)的本地跟踪器。MUk (T)是第k次迭代后的经验元更新器(k = 0表示没有元更新器)。

3.2.4 泛化能力

上述介绍是关于在线更新的跟踪器输出响应映射的。对于没有响应映射的跟踪器(例如，MDNet[37]、RTMDNet[21])，我们可以简单地删除子网络f R，并使用剩余的信息训练元更新器。对于某些随时间累积的样本在线更新的跟踪器(例如ECO[8])，我们的元更新器能够净化用于更新的样本池。对于给定的帧，如果元更新器的输出为0，那么当前的跟踪结果将不会添加到示例池中(即，不用于更新)。如果多个在线更新跟踪器(例如我们的长期跟踪器、用于本地跟踪的ATOM* 和用于验证的RTMDNet)的集合，我们只能训练一个元更新器，将来自所有跟踪器的信息作为输入，然后使用它来指导所有跟踪器更新。第4.3节展示了我们的元更新者对不同跟踪器的泛化能力。

3.2.5 实现细节

下面的所有网络都使用随机梯度decent 优化器训练，动量为0.9。训练样本全部来自LaSOT[11]训练集。

匹配网络 $f^A$ . $f^A$ 采用ResNet-50架构，输入107107个图像补丁。对于每个目标，我们在每个帧中对groundtruth周围的包围框随机取样。我们选择IoU在0.7以上的patch作为阳性数据，使用siamrpg -based network[51]中不属于目标的高置信度的盒子作为阴性数据。网络 $f^A$ 的批处理大小是16，我们训练它进行60000次迭代。初始学习率是 $10^{-4}$ ，每20万次迭代除以10。当训练元更新器的剩余网络时，匹配网络被单独训练和固定。

子网络 $f^R$ . 输入响应映射首先被调整为 $50 \times 50$ ，由两个卷积层处理，然后是一个全局平均池化层。输出是一个 $1\times1\times8$ 向量。该子网络由级联LSTMs和两个全连通层联合训练而成。

具有完全连接层的LSTMs。三级级联LSTM在每个LSTM单元中有64个单元。 $t_s$ 、 $t_1$ 、 $t_2$ 分别设置为20、8、3。遗忘偏差设置为1.0。输出最终被发送到两个具有64个隐藏单元的全连接层，以获得最终的二进制值。LSTM的每个训练阶段的批处理大小为16，经过10万次迭代训练，学习率为 $10^{-4}$ 。

4. 实验

我们使用Tensorflow在PC机上实现我们的跟踪器，这台PC机上有Intel-i9 CPU (64G RAM)和NVIDIA GTX2080Ti GPU (11G内存)。跟踪速度约为13帧/秒。我们在五个基准上评估我们的跟踪器:VOT2018LT[23]、VOT2019LT[24]、OxUvALT[42]、TLP[36]和LaSOT[11]。

4.1 定量评价

表2。在VOT2018LT数据集[23]上比较我们的跟踪器和15种最先进的方法。最好的三个结果分别以红色、蓝色和绿色显示。跟踪器根据F-score从上到下进行排名。
【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

VOT2018LT。我们首先在VOT2018LT数据集[23]上将我们的跟踪器与其他最先进的算法进行比较，该数据集包含35个具有挑战性的不同对象序列(如人、汽车、摩托车、自行车和动物)，总长度为146817帧。每个序列平均包含12个长期目标消失，每个平均持续40帧。VOT2018LT数据集[23]的精度评价主要包括跟踪精度(Pr)、跟踪回忆(Re)和跟踪F-score。不同的跟踪器根据跟踪F-score进行排名。关于Pr、Re和F-score的详细定义可以在VOT2018挑战官方报告[23]中找到。

我们将我们的跟踪器与VOT2018官方跟踪器和最近的三种方法(即， MBMD [51]， SiamRPN++ [26]， SPLT[48])，并报告评估结果如表2所示。结果表明，所提出的跟踪器比其他跟踪器的性能要好得多。

VOT2019LT。VOT2019LT[24]数据集包含50个视频，共215294帧，是最新的长期跟踪数据集。每个序列平均包含10个长期目标消失，每个平均持续52帧。与VOT2018LT[23]相比，VOT2019LT带来了更多的挑战，因为它引入了15个更困难的视频和一些不常见的目标(如船、公牛和降落伞)。其评估方案与VOT2018LT相同。表3显示，我们的跟踪器在VOT2019LT挑战中获得第一名。

表3。在VOT2019LT数据集上对我们的跟踪器和八种竞争算法进行性能评估。最好的三个结果分别以红色、蓝色和绿色显示。跟踪器使用F-score指标从上到下进行排名。
【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

OxUvALT。OxUvA long-term(记为OxUvALT)数据集[42]包含337个视频中的366个对象轨迹，均选自YTBB。此数据集中的每个视频平均持续2.4分钟，比其他常用的短期数据集(如OTB2015)长得多。目标以1赫兹的频率稀疏地标记。数据集被分为两个不相交的子集，dev和test。在这项工作中，我们遵循OxUvALT中的开放挑战，这意味着跟踪器可以使用除YTBB验证集以外的任何数据集进行培训，并使用OxUvALT测试子集进行测试。在OxUvALT数据集中，采用三个标准来评估不同的跟踪器，包括真阳性率(TPR)、真负性率(TNR)和最大几何平均值(MaxGM)。TPR测量报告存在的当前对象的比例和定位精度，TNR给出报告为不存在的帧的比例。MaxGM在TPR和TNR之间进行权衡(即MaxGM= $max_{0\leq p\leq 1} \sqrt{((1-p) \cdot TPR)((1-p) \cdot TNR + p)}$ ，用于对不同的跟踪器进行排序。我们将跟踪器和最近的三种算法进行比较 (MBMD[51]、SPLT[48]和Global Track[19])和[42]中报告的十种算法(如LCT[34]、EBT[54]、TLD[22]、ECO-HC[8]、BACF[13]、Staple[1]、MDNet[37]、SINT[41]、Siam FC[2]和Siam FC r[42])。表4显示，我们的跟踪器在最大GM和TPR方面表现最好，同时保持了非常有竞争力的TNR值。

表4。在OxUvALT数据集上对我们的跟踪器和13种竞争算法进行性能评估。最好的三个结果分别以红色、蓝色和绿色显示。跟踪器按照MaxGM值从上到下排列。
【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

LaSOT。LaSOT数据集[11]是最新的具有高质量注释的大型数据集之一。它包含1400个具有挑战性的序列(1120个用于训练，280个用于测试)和70个跟踪类别，每个序列平均有2500帧。在这项工作中，我们遵循一次性评估(成功和精度)来评估LaSOT测试集上的不同跟踪器。图7展示了我们的跟踪器的成功和精确图，以及十种最先进的算法，包括Dimp50[3]、Dimp18[3]、GlobalTrack[19]、SPLT[48]、ATOM[9]、SiamRPN++[26]、ECO(python)[8]、StructSiam[52]、DSiam [55] 和MDNet[37]。
图7显示了我们的跟踪器在所有竞争方法中获得了最好的结果。
图7。使用LaSOT一次性评估不同的跟踪器。更好地观看与放大的颜色。

TLP。TLP数据集[36]包含来自真实场景的50个高清视频，每个序列平均有13500帧。我们遵循一次性评估(成功和精度)来评估TLP数据集上的不同跟踪器。如图8所示，我们的跟踪器在所有竞争方法中取得了最好的结果。
【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

4.2 消融实验

在本小节中，我们使用LaSOT数据集[11]对我们的元更新程序进行消融分析。
元更新器的不同时间步长。首先，我们研究了不同时间步长的影响。适当的时间步长可以在历史信息和当前观察之间实现良好的平衡。表5显示，将时间步长设置为20时性能最佳。
【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

元更新器的不同输入。对于我们的长期跟踪器，元更新器的输入包括边界框(B)、信心得分©、响应图®和外观得分(A)。表6中报告了详细的结果，显示每个输入都对我们的元更新器有贡献(w/o表示没有)。
【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

迭代步骤的评估。由表7可知，随着k的增加，性能逐渐提高。
【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

4.3 讨论

泛化能力和速度分析。我们注意到，我们的元更新器很容易嵌入到其他在线学习跟踪器中。为了展示这种良好的泛化能力，我们将我们的元更新器引入了四种跟踪算法，包括ATOM、ECO(官方python实现)、RTMDNet和我们的基本跟踪器(使用阈值来控制更新)。图9显示了不同跟踪器在LaSOT数据集上在没有和有metaupdater的情况下的跟踪性能，并证明了所提出的元更新器可以持续地提高不同跟踪器的跟踪精度。表8报告了未使用和使用元更新器的跟踪器的运行速度，这表明使用附加的元更新器后跟踪器的运行速度略有下降。因此，我们可以得出结论，我们的元更新器具有良好的泛化能力，可以在几乎不牺牲效率的情况下，持续地提高跟踪精度。

为什么我们的元更新能工作?我们运行一个不带跟踪器和带它的元更新器的跟踪器，并在每一帧记录跟踪器更新状态(u = 0,1)和它的ground truth (l = 0,1)， u = 1表示跟踪器已经更新;否则，尚未更新。l = 1表示跟踪器可以更新;否则，无法更新。ground truth l的偏移量与式(4)相同，有以下概念:(1)true positive (TP): l = 1, u = 1;(2)假阳性(FP): l = 0, u = 1;(3)真阴性(TN): l = 0, u = 0;(4)假阴性(FN): l = 1, u = 0。然后分别得到更新精度(Pr)、更新查全率(Re)为Pr = TP/(TP+FP)、Re = TP/(TP+FN)。更高的精度意味着跟踪器更新的错误观察更少。
较高的召回率意味着跟踪器更有可能接受用正确的观察结果进行更新。我们还定义了一个真实负利率(TNR)来关注错误的观察，如TNR = TN/(TN+FP)。更高的TNR值意味着跟踪器更强烈地拒绝更新错误的观测结果。表9显示了具有和不具有元更新模块的不同跟踪器的统计结果。元更新器的使用稍微牺牲了更新回收，这意味着与没有元更新器的跟踪器相比，部分正确的观察结果没有被用来更新跟踪器。这种现象对跟踪器性能的影响很小，因为正确的观测都是针对同一个目标，并且有大量的冗余信息。相比之下，使用meta-updater显著提高了Pr和TNR值，表明跟踪器受到错误观测的污染要小得多。因此，在线更新的风险将大大降低。

5. 结论

这项工作提出了一个新颖的长期跟踪框架与元更新。与其他*跟踪器相结合，我们的框架利用基于onlineupdate的跟踪器进行本地跟踪，这使得长期跟踪性能受益于具有在线更新(如ATOM)的优秀短期跟踪器。更重要的是，提出了一种新的元更新器，它将几何线索、判别线索和外观线索按顺序进行整合，以确定当前是否对跟踪器进行更新。该方法大大降低了长期跟踪的在线更新风险，有效而又高效地指导了跟踪器的更新。在最近的5个长期基准上的大量实验结果表明，我们的长期跟踪器取得了比其他先进的方法更好的性能。结果还表明我们的元更新器具有良好的泛化能力。

【论文翻译】High-Performance Long-Term Tracking with Meta-Updater

High-Performance Long-Term Tracking with Meta-Updater

使用元跟新器进行高性能长期跟踪

摘要：

1. 介绍

2. 相关工作

2.1 长期的视觉跟踪

2.2 视觉跟踪的在线更新

3. 用元更新器进行长时期跟踪

3.1 长时期跟踪框架

3.2 元更新器

3.2.1 元更新器的序列信息

3.2.2 级联的LSTM

3.2.3 元更新器训练

3.2.4 泛化能力

3.2.5 实现细节

4. 实验

4.1 定量评价

4.2 消融实验

4.3 讨论

5. 结论

相关推荐