High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读

作者将流行的跟踪算法分为两类,一类是基于相关滤波类并进行在线更新的跟踪算法,另一类是使用深度特征抛弃在线更新的跟踪算法,前者严重限制了跟踪速度,后者没有使用域特定信息(即某个特定的跟踪视频的信息)。针对以上不足,作者提出一个SiamRPN网络,该网络分为模板分支和检测分支。训练过程中,在相关特征图上执行proposal extraction、没有预定义好的类别信息;在跟踪过程中使用one-shot检测框架和meta-learning。

Abstract.

Visual object tracking has been a fundamental topic in recent years and many deep learning based trackers have achieved state-of-the-art performance on multiple benchmarks. However, most of these trackers can hardly get top performance with real-time speed.

基于深度学习的跟踪器虽然取得了不错的跟踪精度,但是跟踪速度却不尽人意。

In this paper, we propose the Siamese region proposal network (Siamese-RPN) which is end-to-end trained offline with large-scale image pairs.

本文作者提出一个基于Siamese的区域候选网络(RPN),该网络可以在大规模数据集上进行端到端的离线训练。

Specifically, it consists of Siamese subnetwork for feature extraction and region proposal subnetwork including the classification branch and regression branch.

具体来说是本文的框架由一个用来提取特征的Siamese网络和一个具有分类和回归两个分支的RPN网络构成。

In the inference phase, the proposed framework is formulated as a local one-shot detection task. We can pre-compute the template branch of the Siamese subnetwork and formulate the correlation layers as trivial convolution layers to perform online tracking.

在推理阶段,提出的框架被制定为一个局部一次检测任务。可以预先计算Siamese子网络的模板分支,并将相关层表示为普通的卷积层来进行在线跟踪。

Benefit from the proposal refinement, traditional multi-scale test and online fine-tuning can be discarded.

受益于RPN网络,多尺度测试和在线微调都可以被摒弃掉,从而提升跟踪速度。

The Siamese-RPN runs at 160 FPS while achieving leading performance in VOT2015, VOT2016 and VOT2017 real-time challenges.

在测试数据上的速度和精度都很有竞争力。

网络框架

 

High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读

此网络由Siamese Network和Region Proposal Network两部分组成。前者用来提取特征,后者用来产生候选区域。其中,RPN子网络由两个分支组成,一个是用来区分目标和背景的分类分支,另外一个是微调候选区域的回归分支。整个网络实现了端到端的训练。

Siamese Network提取特征:该部分和Siam-FC相同,给定High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读是一种转换操作High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读,函数h作为全卷积网络变换函数,k是全卷积网络变换的比例因子,则High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读表示的含义是:先对x进行有比例因子的转换操作再进行全卷积操作等同于先对x进行全卷积操作再进行转换操作。将网络作为一种变换φ,将这种变换分别应用到模板支和检测支上,产生模板和搜索区域的特征φ(z)(x)。

RPN网络由两部分组成,一部分是分类分支,用于区分目标和背景;另一部分是回归分支,它将候选区域进行微调。对于分类分支,它将给出每个样本被预测为目标和背景的打分。网络将用Siam网络提取到的模板和检测帧的特征用一个新的卷积核进行卷积,在缩小了特征图的同时,产生了如图大小为4×4×(2k×256)的模板帧特征[φ(z)]cls和大小为20×20×256的检测帧特征[φ(x)]cls,他们分别表示的含义是:模板帧特征大小是4×4,而且它在k种不同的anchors有k中变化,对每种变化的模板都产生一个特征;检测帧特征大小是20×20×256。然后,以模板帧的特征作为卷积核(2k个4×4×256)去卷积检测帧的特征从而产生响应图High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读。 回归分支和分类分支类似,不过它给出的是每个样本的位置回归值,这个位置回归值包含dx, dy, dw, dh四个值。

High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读

在训练过程中,用cross-entropy loss作为分类分支的损失函数,用smooth L1 loss作为回归分支的损失函数。

端到端训练Siam-RPN:从ILSVRC和Youtube-BB中的视频提取的样本对作为训练数据,用SGD方法对网络进行训练,同时也运用了一些数据增强处理。在细节方面,因为相同目标在相邻帧变化不会很大,作者采用一种尺度5种不同比例的anchors[0.33,0.5,1,2,3](注意proposals如何从特征图映射到原图),同时将IoU>0.6的定为正样本,IoU<0.3的定为负样本;在一个训练对里最多有16个正样本且共有64个样本。

One-shot跟踪:

High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读  High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读

检测帧在对每一帧目标进行检测时就是对proposals进行分类,即相当于一个分类器。该分类器进行分类时需要一个响应得分图,该响应图是由检测帧特征图用模板帧特征图作为卷积核进行卷积得到的。如图灰色的方块,标识有weight for regression和weight for classification即为模板帧特征图,它用第一帧图像信息进行训练(即就是前文提到的one-shot检测,只用第一帧图像信息训练出一层网络的参数),然后将训练好的参数作为卷积核用到检测支中,对检测帧特征进行卷积得到响应图(大小为17×17×2k

作者将模板支的输出作为本地检测的卷积核,在整个跟踪过程中,卷积核参数都是用第一帧信息提前计算好的,当前帧跟踪可以看做如上图所示的one-shot检测,提取出检测支中得分前M的样本的分类输出信息High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读和回归输出信息High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读。根据输出信息,可以得到前M个proposals的位置信息:

High Performance Visual Tracking with Siamese Region Proposal Network—CVPR2018 阅读

proposals的选择策略:

策略1:选择在目标周围g×g×k的anchors而不是整个特征图上m×n×k的anchors,如图4 g=7

策略2:用cosine窗口和尺度变化penalty对剩下的proposals得分进行重新排序。在策略1执行并删除了离目标较远的proposals后,cosine窗口用于抑制最大位移,然后增加penalty以抑制尺寸和比例的大幅变化。最后选出得分最高的前K个proposals,并用NMS选出最终的跟踪目标位置。另外,在跟踪目标得到后,通过线性插值更新目标尺寸,保持形状平稳变化。

参考

1. High Performance Visual Tracking with Siamese Region Proposal Network (https://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

2. https://www.cnblogs.com/shyern/p/10669221.html

3. https://www.jianshu.com/p/bee9401cd7da 

4. http://www.360doc.com/content/19/0623/21/99071_844410189.shtml

5. https://baijiahao.baidu.com/s?id=1634487751644503932&wfr=spider&for=pc