visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

基于全卷积孪生网络的视觉追踪

摘要：

传统上，通过仅在线学习对象外观模型来解决任意对象跟踪问题，使用视频本身作为唯一的训练数据。尽管这些方法取得了成功，但仅在线方法固有地限制了他们可以学习的模型的丰富性。最近，进行了几次尝试去开发深度卷积网络的表达能力。然而，当事先不知道要跟踪的对象，则必须在线执行随机梯度下降以适应网络的权重，从而严重影响系统的速度。在本文中，我们用一个全新的全卷积孪生网络配置了一个基本算法在ILSVRC15数据集上进行端到端训练，用于视频中的目标检测。我们的跟踪器以超出实时的帧速率运行，尽管极其简单，但仍可实现在多个基准中达到最先进的性能。

1 介绍

我们考虑跟踪视频中任意对象的问题，其中对象仅由第一帧中的矩形标识。由于可能要求该算法跟踪任意对象，因此不可能已经收集数据并训练一个特定的探测器。

多年来，这种情况下最成功的范例是使用从视频本身中提取的示例以在线方式学习对象外观的模型[1]。这在很大程度上归功于TLD [2]，Struck [3]和KCF [4]等方法的已经被证实的能力。但是，使用仅从当前视频获得的数据的明显缺陷是只能学习相对简单的模型。虽然计算机视觉中的其他问题已经看到越来越广泛地采用从大型监督数据集训练而来的深度卷积网络（conv-net），但是监督数据的稀缺性和实时操作的约束限制了深度学习在每个视频学习检测器范例中的简单应用。

最近的几项工作旨在使用预先训练的深度转换网络克服这一限制，该网络是为不同但相关的任务而学习的。这些方法要么是使用网络的内部表示作为特征应用于“浅”方法（例如相关过滤器）或是执行SGD（随机梯度下降）来微调网络的多层[7,8,9]。然而浅层方法的使用不能充分利用端到端学习的优势，在跟踪过程中应用SGD获得最佳结果的方法无法做到实时性。

我们提倡一种替代方法，其中在初始离线阶段训练一个深度卷积网络以解决更一般的相似性学习问题，然后在跟踪期间简单地在线评估此功能。本文的主要贡献在于证明该方法在现代跟踪基准测试中以远远超过帧速率要求的速度获得了非常有竞争力的性能。具体来说，我们训练了一个孪生网络以在较大的搜索图像中定位示例图像。进一步的贡献是关于搜索图像的一个新颖的全卷积孪生结构：使用双线性层实现密集高效的滑动窗口评估，该线性层计算其两个输入的互相关（深度学习中卷积的定义）

我们认为，相似性学习方法已经相对被忽略了，因为跟踪社区无法访问大量的标记数据集。实际上，直到最近，可用的数据集仅包含数百个带注释的视频。但是，我们认为ILSVRC数据集的出现视频[10]（以下称为ImageNet视频）中的目标检测使训练这种模型成为可能。此外，使用来自同一域的视频去训练和测试深度模型的公平性是一个有争议的问题，最近VOT委员会已禁止这样做。我们展示了我们的模型可以从ImageNet视频域推广到ALOV / OTB / VOT [1,11,12]域，从而可以将跟踪基准的视频保留用于测试目的。

2 深度相似学习追踪

可以使用相似性学习来解决跟踪任意对象的问题。我提出一个函数f(z; x) 来比较一个示例图像z和同样大小的候选图像x并且如果两张图片描绘的是同一个物体返回一个高分，如果不是就返回一个低分。为了找到对象在新图像中的位置，我们可以穷尽地测试所有可能的位置，并选择与对象的过去外观具有最大相似度的候选对象。在实验中，我们将简单地使用对象的初始外观作为示例。函数f将从具有标记对象轨迹的视频数据集中学习。

考虑到它们在计算机视觉领域的广泛成功[13,14,15,16]，我们将使用深层卷积网络作为函数f。深度卷积网络的相似性学习通常使用孪生体系结构解决[17,18,19]。孪生网络将相同的变换 visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking 应用于两个输入，然后根据使用另一个函数g组合它们的表示。如果函数g是简单距离或相似度，则可以将函数可被视为嵌入。深度卷积孪生网络先前已应用于诸如面部识别[18,20,14]，关键点描述符学习[19,21]和单发字符识别[22]等任务。

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

图一，全卷积孪生网络结构。我们结构是关于搜索图像x的全卷积。输出是标量值得分图，其维数取决于搜索图像的大小。这样就可以在一次评估中用相似度函数计算在搜索图像中的所有平移子窗。在此示例中，得分图中的红色和蓝色像素包含相应子窗口的相似性。。以颜色观看最佳。

2.1 全卷积孪生结构

我们提出了一种相对于候选图像x是全卷积的孪生体系结构。我们说一个函数如果往返平移那这个函数是全卷积的。为了给出了更精确的定义，记 visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking 来表示平移操作，如果公式1对于所以平移成立，映射信号到信号函数h是整数步长为K的全卷积（当x 是一个确定的信号，这只需要保留输出的有效区域）

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

全卷积网络的优势在于，我们可以提供更大的搜索图像作为输入，而不是使用相同大小的候选图像作为网络输入，它将在单次评估中计算密集网格上所有已平移过的子窗口的相似度。为了实现这一点，我们使用了卷积嵌入函数 visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking 并使用互相关层来组合生成的特征图。

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

B1 表示一个在任何位置取值为 visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking 的信号。该网络的输出不是一个单一的分数，而是一个定义在有限网格如图1所示。

在跟踪过程中，我们使用以目标先前位置为中心的搜索图像。最大得分相对于位置图的中心的位置，乘以网络的步幅，给出目标从帧到帧的位移。通过组合一小批缩放图像，可以在一个正向过程中搜索多个缩放比例。在算数上，使用互相关组合特征地图并在较大的搜索图像上对网络进行一次评估等同于使用内积组合特征图并在每个转换的图像上对网络进行独立地评估。然而，互相关层提供了一种令人难以置信的简单方法来在现有的卷积神经网络库的框架内有效地实现该操作。虽然这在测试过程中显然是有用的，但也可以在训练过程中加以利用。

2.2 使用大的搜索图像训练

我们采用一种判别式方法，利用成对的正负样本训练网络，并且采用了逻辑回归损失函数

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

v是单个实例-候选对的实值得分，y∈ visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking {+1，-1}是它的真实标签。我们在使用包含实例图像和较大搜索图像的图像对训练过程中，利用了我们网络的全卷积特性。这将产生一张分数图 v:

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking 有效地为每对生成多个示例。我们将分数图的损失定义为单个损失的平均值。

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

要求得分图中每个位置u 都有一个真正的标签 visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking ，将随机梯度下降（SGD）应用于该问题（公式5），得到了卷积网θ的参数。

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

通过提取以目标为中心的示例图像和搜索图像，可以从带注释的视频数据集中获取对，如图2所示。这些图像是从视频的两个帧中提取的，这两个帧都包含目标，并且最多相隔t帧。训练期间忽略对象的类。每个图像中对象的比例是标准化的，而不会损坏图像的纵横比。

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

图2 训练从相同视频中提取的图像对：来自同一个视频序列的示例图像和对应的搜索图像的图像对。当一个子窗扩展超过了如图片的大小，缺失部分用平均RGB值填充。

如果得分图的元素位于中心半径R内（与网络的跨距k有关），则认为它们属于正示例。

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

分数图中正负实例的损失被加权以消除分类不平衡

由于我们的网络是完全卷积的，所以它没有风险学习到中心子窗口的偏差。我们认为搜索以目标为中心的图像是有效的，因为最难的子窗口以及对跟踪器性能影响最大的子窗口很可能是与目标相邻的子窗口。

注意，由于网络是对称的f（z；x）=f（x；z），它实际上在示例中也是完全卷积的。虽然这允许我们在理论上为不同的对象使用不同大小的示例图像，但我们假设大小是一致的，因为它简化了小批量实现。不过，这一假设今后可能会放宽。

2.3 用于追踪的ImageNet 视频

2015年版的ImageNet大规模视觉识别挑战[10]（ILSVRC）引入了ImageNet视频数据集，作为视频挑战中新的目标检测的一部分。参与者需要对30种不同种类的动物和车辆进行分类和定位。训练和验证集总共包含近4500个视频，总共有超过一百万个带注释的帧。

这个数字与vot[12]、alov[1]和otb[11]中标记序列的数目，其中总共不到500个视频相比是令人影响深刻的。我们认为这个数据集应该是跟踪社区的极大兴趣不仅在于其庞大的规模，还在于因为它描述的场景和对象与规范跟踪基准中的场景和对象不同。因此，它可以安全地用于训练无需过拟合的视频跟踪模型基准。

2.4 实际注意事项

数据集管理 在训练过程中，我们采用127×127的样本图像和255×255像素的搜索图像。

图像被缩放，使得边界框加上周围的附加边距，有一个固定的区域。

更准确地说，如果边界框具有大小（w；h），并且上下边距为p，则选择比例因子s，使得缩放矩形的面积等于常数

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

我们使用实例图片的面积是 A = 127^2，将上下数量设置为平均维度p =（w+h）/4的一半。

离线提取每个帧的样本图像和搜索图像，避免训练过程中的图像缩放。在这项工作的初步版本中，我们采用了一些启发式方法来限制从中提取训练数据的帧数。在本文的实验中，我们使用了imagenet视频中的4417个视频，其中包含数量超所200多万个的带标签的边界框。

网络结构：我们为嵌入函数 visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking 采用的体系结构类似于Krizhevsky等人的网络的卷积阶段[16]。参数和**的尺寸在表1中给出。在前两个卷积层之后采用Maxpooling。 ReLU非线性跟随每个卷积层，最后一层conv5除外。在训练过程中，在每个线性层之后立即插入批量归一化[24]。最终表示的步幅为8。该设计的重要方面是在网络内不引入填充。虽然填充在图像分类实践中很普遍，但它违反了等式1的全卷积性质。

跟踪算法：由于我们的目的是证明当网络在ImageNet Video上训练时，我们的全连接孪生网络的功效及其泛化能力，因此我们使用一种极其简单的算法来进行跟踪。与更复杂的跟踪器不同，我们不会更新模型或保留过去的记忆，不会合并其他线索，例如光流或颜色直方图，并且不会使用边界框回归来完善预测。然而，尽管其简单性，但在配备了我们的离线学习相似度指标后，跟踪算法仍取得了令人惊讶的良好结果。

表一卷积嵌入函数的体系结构类似于Krizhevsky等人的网络的卷积阶段[16]。通道图属性描述每个卷积层的输出和输入通道数

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

在线上，我们确实包含了一些基本的时间约束：我们仅在其先前约四倍大小的区域内搜索对象，并将余弦窗口添加到分数图中以惩罚较大的位移。通过处理搜索图像的多个缩放版本，可以在缩放空间中进行跟踪。比例的任何变化都会受到处罚并且当前比例的更新是被抑制的。

3. 相关工作

最近的一些工作试图训练递归神经网络（RNN）来解决对象跟踪问题。Gan等。 [25]训练RNN来预测目标在每一帧中的绝对位置，Kahou等人。 [26]类似地训练RNN使用可区分的注意力机制进行跟踪。这些这些方法尚未在现代基准上证明有竞争力的结果，但是它无疑是未来有希望的研究途径。我们指出，通过将孪生网络解释为展开后的RNN，可以对长度为2的序列进行训练和评估，可以在这种方法与我们的方法之间得出有趣的相似之处。因此，孪生网络可以作为递归模型的强有力的初始化。

Denil等。 [27]使用粒子滤波器跟踪对象，该粒子滤波器使用学习的距离度量将当前外观与第一帧的外观进行比较。但是，它们的距离指标与我们的差距很大。它们无需计算整个对象的图像，而是计算注视点之间的距离（对象边界框内小区域的凹面瞥见）。要学习距离度量，他们会训练受限的玻尔兹曼机（RBM），然后对两个注视点使用隐藏**单元之间的欧几里得距离。尽管RBM是无监督的，但他们建议对RBM进行训练，以对物体中心图像中的随机注视进行检测。这必须在了解要跟踪的对象的情况下在线或在一个离线阶段执行，在跟踪对象时，他们会使用不确定性作为奖励信号来学习用于选择特定于该对象的注视的随机策略。除了MNIST数字的合成序列外，该方法仅在面部和人物跟踪问题上得到了定性证明。

虽然为每个新视频从头开始训练一个深层的conv网络是不可行的，但许多工作已经研究了在测试时根据预先训练的参数进行微调的可行性。SO-DLT [7]和MDNet [9]都在离线阶段训练卷积网络进行类似的检测任务，然后在测试时使用SGD来学习检测器，并从视频本身中提取示例，就像传统的作为检测器的跟踪学习范例一样。由于在许多示例中评估前向和后向传递的计算量，这些方法无法以帧速率运行。利用卷积网络进行跟踪的另一种方法是使用预训练卷积网络的内部表示作为特征来应用传统的浅层方法（利用CNN特征）。而这种跟踪器如DeepSRDCF [6]，Ma等。[5]和FCNT [8]取得了不错的结果，由于conv-net表示的尺寸较大，它们无法实现帧速率操作。

与我们自己的工作同时，其他一些作者也提出了通过学习成对图像的函数，将卷积网络用于对象跟踪。Held等[28]引入GOTURN，其中训练了一个转换网络以直接回归从两个图像到第一个图像中显示的对象在第二个图像中的位置。预测矩形而不是位置具有以下优点：可以在不借助详尽评估的情况下处理比例和纵横比的变化。然而，他们的方法的缺点是它不具有第二张图像固有的平移不变性。这意味着必须向网络显示所有位置的示例，这可以通过大量的数据集扩充来实现。 Chen等[29]训练映射网络示例和更大的搜索区域作为响应图。但是，由于最终层是完全连接的，因此他们的方法也没有第二幅图像平移的不变性。与Held等类似，这是低效的，因为训练集必须代表所有对象的所有平移。对于网络的Y形，他们的方法被命名为YCNN。与我们的方法不同，他们无法在训练后动态调整搜索区域的大小。陶等。Tao et al提出训练一个孪生网络，以识别匹配初始对象外观的候选图像位置，将其方法称为SINT（Siamese Instance search Tracker）。与我们的方法相反，他们没有采用关于搜索图像完全卷积结构。相反，在测试时，他们像Struck [3]一样在半径变化的圆上均匀地对边界框进行采样。而且，它们结合了光流和边界框回归来改善结果。为了提高系统的计算速度，他们使用兴趣区域（RoI）池来有效检查许多重叠的子窗口。尽管进行了优化，但每秒2帧的速度仍然无法使整个系统成为实时系统。

以上所有在视频序列上进行训练的竞争方法（MDNet [9]，SINT [30]，GOTURN [28]）都使用与基准测试所使用的ALOV / OTB / VOT域相同的训练数据。由于担心过度适合基准中的场景和对象，因此在VOT挑战中禁止这种做法。因此，我们工作的重要贡献是证明可以训练卷积网络进行有效的目标跟踪而无需使用来自相同发行版的作为测试集的视频。

4 实验

4.1 实现细节

训练. 嵌入函数的参数是通过利用MatConvNet [31]工具箱中的简单SGD最小化等式5来找到的，参数的初始值是服从高斯分布的，并根据改进的Xavier方法进行缩放[32]。训练进行了超过50次迭代，每次迭代包括50,000个采样对（根据第2.2节）。使用大小为8的minibatch来估算每次迭代的梯度，并且学习率在每次迭代从10^-2到10^-5进行几何退化。

追踪. 如前所述，在线阶有意简化的。初始目标外观的嵌入 visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking 只需计算一次，然后与后帧的子窗口进行卷积比较。我们发现，通过简单的策略（例如线性插值）在线更新示例的（特征表示）不会获得更好的性能，因此我们将其固定。我们发现，使用双三次插值对得分图进行上采样（从17×17到272×272），由于原始图相对较粗糙，因此定位更加准确。为了处理比例尺变化，我们还在五个比例尺度上1.025^{-2; -1; 0; 1; 2}上搜索对象，并通过线性插值法以0.35的系数更新比例尺以提供阻尼。

为了使我们的实验结果可重现，我们共享了训练和跟踪代码，以及用于生成精心挑选的数据集的脚本，在网页http://www.robots.ox.ac.uk/~luca/siamese-fc.html上，在配备了单个NVIDIA GeForce GTX Titan X和4.0 GHz英特尔酷睿i7-4790K的机器上，当分别搜索3和5个标度时，我们的完整在线跟踪器以每秒86帧和58帧的速度运行。

4.2 评估

。。。。。。

visual tracking 经典文献翻译（1）- Fully-Convolutional Siamese Networks for Object Tracking

相关推荐