ECCV 2018 DaSiamRPN:《Distractor-aware Siamese Networks for Visual Object Tracking》论文笔记
理解出错之处望不吝指正。
本文模型叫做DaSiamRPN。本文首先分析了已有的孪生网络方法中的特征和缺点,如下图所示:
如上图所示,是几种孪生模型对ROI提取出的特征图。论文中提到,造成这种现象的原因是,在目标周围的背景信息中,非语义背景(即真正的“背景”信息,如地板、天空等)占据了主要部分,语义背景(背景中的人、狗等实体,我是这么理解的)占据了极少一部分。这种不平衡的分布使得模型趋向于去学习到一个区分前景(目标+语义背景)和背景(非语义背景)的模型,而不是学习一个实例级别的表示方法。为了处理这个问题,作者在训练集中添加了三类样本对,提高模型的学习效果。
-
添加了三类样本对
首先,是使用检测数据集中样本对。如上图中(a)。
作者认为,使用ILSVRC和Youtube-BB检测数据集,数据量还是太少,且数据集中的类别较少,不利于模型学习到泛化能力。作者提出使用VID和COCO数据集,通过一些数据增强技术(后文中提到包括平移、缩放、灰度变换、运动模糊等)构造出样本对,这类样本对用于提高模型的泛化能力。
其次,使用来自相同类别的负样本对。如上图中(b)。最后,使用来自不同类别的负样本对。如上图中(c)。
添加这两类负样本可以使模型在超出视线、全遮挡的情况下,避免模型漂移到其他的目标上去。这两类样本对用于提高模型的判别能力。
-
提出了一种增量学习方法
传统的详细学习在进行相似度计算时,使用下式:
本文中提出了一种新的选择最优bbox的标准,如下式(用****的公式编辑器没打出来argmax,有会的大佬教教我,哭...):
从上式中我们可以看出,其实就是当前位置和模板
计算相似度之后,减去当前位置与search region中其他位置的相似度的加权和。
由于交叉相关(互相关)操作是一个线性操作,我们可以使用这个特性对计算进行加速,如下式:
再考虑结合律,我们可以将式子改为如下所示的增量学习公式,式中是学习率。
-
将DaSiamRPN用于Long-term跟踪
当模型跟踪失败的时候,模型采取一种“局部-全局”增大search region的策略去重新跟踪目标。如下图所示(红色是ground truth,绿色的是跟踪结果,蓝色的是search region):
至于如何判断模型何时跟踪失败,论文中提到“Since the distractor-aware training and inference enable highquality detection score, it can be adopted to indicate the quality of tracking results.”
-
模型的实验结果
VOT:
UVA:
提出的方法带来的效果改进: