前言：siamRPN是Siamfc之后的又一突破。SiamFC的缺点：
Siamese的方法只能得到目标的中心位置，但是得不到目标的尺寸，所以只能采取简单的多尺度加回归，这即增加了计算量，同时也不够精确。
大佬翻译：https://blog.****.net/aaon22357/article/details/91966297
本文的改进：
SiamFC+ RPN Network，输出两个分支，分别用于分类和回归（SiamFC没有回归，而是用多尺度测试，增加了计算量且不够精确），帧率160fps（不需要在线微调），端到端，单目标跟踪

摘要

近些年来，Vot一直是计算机领域的一个基本课题。许多基于深度学习的跟踪器都在多个测试排行上实现了最先进的性能。然而，大多数的跟踪器都很难到达顶部性能与实时速度。在本文中，我们提出Siamense-RPN----它是一个利用大规模的图象队进行离线的端到端训练的方法。具体来说，它由Siamense network组成特征提取和区域建议子网络同时包括了分类分支和回归分支。在推理阶段，提出了如下框架本地一次检测任务。我们可以预先计算Siamese子网络的模板分支，并将相关层表示为普通的卷积层来进行在线跟踪。通过改进，传统的多尺度测试和在线微调可以被放弃。SiamRPN的速度为160帧/秒在VOT2015, VOT2016和VOT2017中表现领先实时的挑战。

1.引言

VOT是计算机视觉的各种任务中的一个基本结构块计，如自动驾驶[19]和视频监控[32]。这是一个巨大的挑战由光照、变形、遮挡和运动[37,39]。此外，速度也是在实际应用中具有重要意义[13,4,38]。
现代追踪器大致可分为两个分支。第一个分支是基于相关滤波器（kcf），它利用循环相关的性质并在傅里叶域中进行运算来训练回归器。它可以在线跟踪，同时有效地更新滤波器的权值。原始的方法是在傅里叶域中进行，然后广泛地应用于跟踪社区[5,14]。近年来基于相关滤波的方法利用深度特征来提高精度，但在模型更新过程中大大降低了速度[10,7]。
另一个分支的方法旨在使用非常强大的深层特性（deep learning ），而不更新模型[13,4,35]。但是，由于没有使用领域特定的信息，这些方法的性能总是不如基于相关筛选器的方法。
在本文中，我们证明了离线训练的基于深度学习的跟踪器在适当的设计下可以获得与目前最先进的基于相关滤波器的跟踪器相比具有竞争力的结果。关键是提出的(Siamese-RPN)。它由一个模板分支和一个检测分支组成，检测分支采用端到端的方式离线训练大规模的图像pair。受目前最先进的提案提取方法RPN[27]的启发，我们对相关特征图进行提案提取。与标准RPN不同的是，我们使用两个分支的相关特征图来提取提案。在跟踪任务中，我们没有预先定义。因此，我们需要模板分支将目标的外观信息编码到RPN特征映射中，以区分前景和背景。
对于perference，我们将它表示为一个局部的一次性检测框架，其中第一帧中的边界框是唯一的范例。我们将模板分支重新解释为参数，以预测像[2]这样的元meta学习器的检测内核。元学习者和检测分支都是在RPN的监督下进行端到端的训练。在线跟踪时，为了加快初始帧后的速度，对模板分支进行修剪。据我们所知，这是第一个制定在线跟踪任务作为一次性检测的工作。
我们在VOT2015、VOT2016和VOT2017实时挑战中对提出的方法进行了评估[17,16,15]。它可以在所有这三个挑战中取得领先的成绩。
主要有两个原因，我们可以得到最先进的结果没有在线微调。
首先，利用图像对进行离线训练可以利用Youtube-BB[25]等大型培训数据。消融研究表明，更多的数据可以帮助获得更好的性能。其次，我们发现区域提案子网通常能够准确预测提案的规模和比例，从而得到如图1所示的紧凑边界框。这些贡献可以概括为三方面。
1)提出了一种基于大规模图像对的端到端离线训练的Siamese区域建议网Siamese- rpn。
2)在线跟踪时，将提出的框架表示为局部一次检测任务，可以细化建议，抛弃复杂的多尺度测试。
3)在VOT2015、VOT2016、VOT2017实时挑战中，以160 FPS的速度取得领先的表现，证明了其在准确性和效率上的优势。

2.相关工作

由于本文的主要贡献是把Siamense-RPN表示为单次局部检测任务，我们给出了一个简要回顾与我们工作相关的三个方面:跟踪器基于Siamese网络结构，检测中的RPN使用和单次学习。

2.1.Trackers based on Siamese network structure

Siamese网络由两个分支组成，这两个分支隐式地将原始的patch编码到另一个空间，然后用一个特定的张量将它们融合起来，产生一个单独的输出。它通常用于比较隐式嵌入空间中两个分支的特征，特别是用于对比任务。近年来，Siamnetwork网络以其均衡的精度和速度受到视觉跟踪界的广泛关注[13、12、4、35、36]。GOTURN[13]采用Siamese网络作为特征提取器，采用全连通层作为融合张量。将最后一帧的预测边界框作为唯一的建议，可以看作是一种回归方法。re3[12]使用了一个递归网络来获得模板分支产生的更好的特性。在相关方法的启发下，Siamese-FC[4]首先引入相关层作为融合张量，大大提高了精度。其成功的原因是与GOTURN的一项建议回归相比，密集监督的heatmap，这使得siam- fc对快速移动的物体更加健壮。CFNet[35]向模板分支添加了一个相关过滤器，使Siamnetwork更浅，但更高效。
然而，Siamese-FC和CFNet都缺乏边界box回归，需要进行多尺度测试，使得其不那么优雅。这些实时跟踪器的主要缺点是其精度和鲁棒性不能令人满意相比于最先进的相关滤波方法。

2.2. RPN in decetion

区域建议网络(RPN)首先在快速R-CNN[27]中提出。在RPN之前，传统的提取特征方法比较耗时。例如，选择性搜索[34]需要2秒来处理一个图像。此外，这些提案还不足以进行检测。多锚（multiple anchors）[27]的枚举和共享的卷积特征使得该方案提取方法在获得高质量的同时具有较高的时间效率。RPN在前-背景分类和边界盒回归的监督下，能够提取出更精确的建议。有几个变种的更快的R-CNN采用RPN。R-FCN[6]考虑了组件的位置信息，FPN[21]采用特征金字塔网络来提高微小目标检测的性能。与两级探测器相比，改进的RPN探测器如SSD[22]和YOLO9000[26]是有效的探测器。RPN由于其速度快、性能好等优点，在检测方面有很多成功的应用，但在跟踪方面还没有得到充分的开发。
走进VOT--《High Performance Visual Tracking with Siamese Region Proposal Network》阅读翻译

2.3. One-shot learning

近年来，在深度学习中，一次性学习的话题越来越受到重视。基于贝叶斯统计方法和元学习方法是解决这一问题的两种主要方法。在[20]中，对象类别由概率模型表示，推理阶段采用贝叶斯估计。另一方面，元学习方法的目标是获得学习的能力，也就是说，意识到并控制自己的学习。具体来说，[1]利用神经网络预测目标网络在反向传播过程中的梯度。[30]学习将一个小的标记支持集和一个未标记的示例映射到其标记的网络。虽然这些基于元学习的方法取得了很好的效果，但是这些方法通常是基于分类任务进行评估的，很少扩展到跟踪任务。Learnet[2]是第一个利用元学习方法来解决跟踪任务的工作，它从单个样本预测瞳孔网络的参数。然而，与基于DCF的方法相比，Learnet的性能并不是很有竞争力。

3. Siamese-RPN framework

在本节中，我们将详细描述所提出的Siamese-RPN框架。如图2所示，所提出的框架包括一个用于特征提取的Siamense子网和一个用于生成建议的区域建议子网。具体来说，RPN子网络中有两个分支，一个负责前-背景分类，另一个用于提案细化。将包括目标对象在内的图像小块输入到该框架中，对整个系统进行端到端的训练。

3.1. Siamese feature extraction subnetwork

在Siamese网络中，我们采用不填充的全卷积网络。让Lτ表示翻译操作符(Lτx) (u) = x [u−τ),那么所有填充被满足的定义与步幅k完全卷积:
走进VOT--《High Performance Visual Tracking with Siamese Region Proposal Network》阅读翻译
这里我们使用修改过的AlexNet[18]，其中conv2和conv4中的组被删除了[4]。
Siamese特征提取子网络由两个分支组成。一个叫接收目标补丁的模板分支的历史框架作为输入(denotedas z)。另一种是叫做检测部门接收目标补丁在当前帧作为输入(x)表示。CNN中的两个分支共享参数,这样两个补丁是由相同的隐式编码转换适用于后续任务。为了方便起见,我们表示φ(z)和φ(x)作为输出特性Siamense子网的map。

3.2. Region proposal subnetwork

区域建议子网络由两两相关部分和监督部分组成。监督科有两个部门，一个负责前-背景分类，另一个负责提案回归。如果有k个锚，网络需要输出2k个信道进行分类，输出4k个信道进行回归。首先两两相关的部分增加φ的渠道(z)两个分支(φ(z)] cls和[φ(z)] reg 2 k和4 k次通道分别由两个卷积层。φ(x)也分成两个分支(φ(x)] cls和[φ(x))注册两个卷积层但保持渠道不变。[φ(z))担任相关的内核(φ(x)]“集团”的方式,也就是说,频道号码的一群(φ(z)]是一样的整体频道号码(φ(x)]。在分类分支和回归分支上计算相关性:
走进VOT--《High Performance Visual Tracking with Siamese Region Proposal Network》阅读翻译
模板特征图(φ(z)] cls和[φ(z)] reg作为内核,⋆表示卷积操作。如图2所示，cls中的每个点
w h××2 k表示为(w̃h̃:)包含一个2 k通道矢量,代表每个锚的正面和负面的**在原始地图上相应的位置。采用软最大损失法对船级社进行监督。同样,每一个点在一个注册w×h×4 k表示为(ŵ、ĥ:)包含一个4 k通道矢量,代表对dx, dy, dw, dh测量锚和相应的groundtruth之间的距离。当使用多个锚点训练网络时，我们使用了更快的R-CNN[27]中使用的损耗函数。
分类损失是一种交叉熵损失，我们采用平滑的l1损失和归一化坐标进行回归。设A x, A y, A w, A h表示锚箱的中心点和形状，设T x, T y, T w, T h表示地面真值盒的归一化距离为: 走进VOT--《High Performance Visual Tracking with Siamese Region Proposal Network》阅读翻译
然后他们通过顺利的L 1损失，可以如下：

最后我们优化了损失函数：

在λhyper-parameter平衡两个部分。Lreg ls
为交叉熵损失，L为:

3.3. Training phase: End-to-end train Siamese-RPN

在训练阶段，随机间隔从ILSVRC[29]和连续从Youtube-BB[25]中选取样本对。从同一视频的两帧中提取模板和检测补丁。我们使用Imagenet对暹罗子网进行预训练后，使用随机梯度下降(SGD)对暹罗- rpn进行端到端的训练。由于训练回归分支的需要，在-中采用了一些数据扩充仿射变换。在跟踪任务中，我们选择的锚点比检测任务少，因为我们注意到相邻两帧中的同一物体变化不大。所以我们只采用了一种不同锚固比的标度，我们采用的锚固比为[0.33,0.5,1,2,3]。
选择积极和消极的训练样本的策略在我们提出的框架中也很重要。本文采用IoU和hi、lo两个阈值相结合的方法进行目标检测。正样本被定义为具有IoU > th hi和相应的groundtruth的锚。消极的人被定义为锚，锚定了你的价值。我们把th lo设为0。3 hi设为0。6。我们
同时限制最多16个阳性样本，共64个sam-来自一个训练对的实例。

走进VOT--《High Performance Visual Tracking with Siamese Region Proposal Network》阅读翻译

摘要