Siamese Instance Sreach for Tracking 论文详解+学习笔记
In this paper1 we present a tracker, which is radically different from state-of-the-art trackers: we apply no model updating, no occlusion detection, no combination of trackers, no geometric matching, and still deliver state-of-theart tracking performance, as demonstrated on the popular online tracking benchmark (OTB) and six very challenging YouTube videos. The presented tracker simply matches the initial patch of the target in the first frame with candidates in a new frame and returns the most similar patch by a learned matching function. The strength of the matching function comes from being extensively trained generically, i.e., without any data of the target, using a Siamese deep neural network, which we design for tracking. Once learned, the matching function is used as is, without any adapting, to track previously unseen targets. It turns out that the learned matching function is so powerful that a simple tracker built upon it, coined Siamese INstance search Tracker, SINT, which only uses the original observation of the target from the first frame, suffices to reach state-of-theart performance. Further, we show the proposed tracker even allows for target re-identification after the target was absent for a complete video shot.
摘要翻译:在本文中,我们提出了一个跟踪器,它与最先进的跟踪器完全不同:我们不应用任何模型更新,没有遮挡检测,没有跟踪器的组合,没有几何匹配,并且仍然提供状态跟踪性能,如流行的在线跟踪基准(OTB)和六个非常具有挑战性的YouTube视频所示。所呈现的跟踪器简单地将第一帧中的目标的初始补丁与新帧中的候选匹配,并通过学习的匹配函数返回最相似的补丁。匹配函数的强度来自于使用我们设计用于跟踪的连体深度神经网络一般地进行广泛训练,即没有目标的任何数据。一旦学会了,匹配函数将按原样使用,无需任何调整,以跟踪以前看不见的目标。事实证明,学习到的匹配函数是如此强大,以至于一个简单的跟踪器建立在它上面,创造了Siamese INstance搜索跟踪器,SINT,它只使用了第一帧中目标的原始观察,足以达到状态的性能。此外,我们展示了提议的跟踪器甚至允许在目标不存在于完整视频镜头之后进行目标重新识别。
最大亮点:开创性的将孪生网络应用于目标追踪,在此之前孪生网络主要应用再人脸识别,笔迹识别等任务上。作者通过相似性学习的方式将其应用在目标追踪上。
本篇论文的思想核心是就是通过孪生网络学习匹配函数,再利用训练好的孪生网络去追踪目标。所谓的匹配学习匹配函数,就是利用数据集去训练孪生网络,再利用该孪生网络进行追踪。而SINT就是在此孪生网络的基础上建立的。只需要讲图像的初始帧以及新输入的图像(预处理之后也就是对图像提取完patch之后)一起输进网络之中进行跟踪即可。
SINT特点:
将一个注重结果的检测过程转变为注重过程的匹配过程。
追踪过程
如上图所示,左侧为整篇论文的追踪过程,右侧为流程图。孪生网络最大的特点就是共享权重,本文章采用的网络结构近似于VGGNET16,采用的损失函数为hinge loss(因为需要生成的正样本结果多一些)。正样本结果多一些的话,可供选择的最后结果就多一些。因为整个网络最后的输出结果是一个概率值,作者用这种概率值的大小来决定哪一个方框才是真正的目标框。如果正样本多一些的话,可供选择的结果就多一些。而作者选取概率值最大的那个作为跟初始目标块最匹配的结果,这种选取方式本身就有问题,这也是这篇论文以后可以改进的地方。
训练过程:
如上图所示。
采用ALOV数据集,因为该数据集合中的视频包含多种多样的形变,训练出来的网络更具有鲁棒性。
以正负数据对的形式作为训练集合来训练孪生网络。由模式识别的只是可以直到,负数据对在模型训练的过程中跟正数据对一样重要。所以作者采用数据对的方式来训练网络。 双流孪生网络并不从头开始训练,防止过度拟合。而是采用直接加载预训练好的网络参数并采用精确微调(fine tune)的方式来训练网络。网络层的结构跟VGGNET有通用性。采用六层卷积神经网络,过高会导致计算量复杂,并且产生不必要的误差。所以采用六层。(其实是实验结果决定的)低层次的卷积网络主要提起边缘特征,高层次的卷积网络主要提取细节特征。同时只保留前两层的卷积网络后面的Max pool层是因为最大池化层本来就是为了给特征降维,并降低计算复杂度,在底层还可以用,在较高层的卷积神经网络上面会导致湮没细节特征,影响追踪效果。下面的实验也证明了这一点。
L2正则化层:是为了对每一层卷积网络的输出特征调整维度,保证这些特征在同一维度上,避免因为维度的不同而对实验结果造成影响。
ROI层:该层来自于fast-rnn,区域兴趣池化层,为了避免将同一幅图中的很多预测候选框反复输入图片。采用ROI层可以将整个图片一次性的输入该层,然后只需提取对应块的特征表示即可。
岭回归量:本文训练四个岭回归量,本别是bbox的中心坐标,宽度长度,这样就能用回归分析的办法来优化候选框的位置,提高定位精度,提高追踪效果。