**SiamRPN++*论文笔记***

传统的基于Siamese网络的跟踪方法不能利用深度卷积网络提取的特征，像resnet-50或更深的网络，作者认为核心的原因在于用很深的网络提取特征会导致缺乏严格的平移不变性。作者通过一种简单而有效的空间感知采样策略打破这一限制，成功地训练了一个性能显著提高的resnet驱动的Siamese跟踪器。作者还提出了一种新的模型结构来实现layer-wise and depth-wise聚合，这不仅进一步提高了模型的精度，而且减小了模型的尺寸。

Analysis on Siamese Networks for Tracking

在设计一个Siamese跟踪器的时候有两个本质的限制：一个是网络应该满足严格的平移不变性，另一个是网络应该具有对称性。

深度卷积网络中的padding操作会破坏平移不变性，还有在应用SiamRPN算法时候，RPN需要非对称的结构用来分类和回归。严格的平移不变性只存在于没有padding的卷积网络中，例如AlexNet，如果很深的网络中的平移不变性被破坏以后，带来的弊端就是会学习到位置偏见。作者用带有padding的网络进行了实验，把正样本都放在图像中心时，网络只会对图像中心产生响应；如果把正样本均匀分布到某个范围内，而不是一直在中心时（所谓的范围即是指距离中心点一定距离，该距离为shift；正样本在这个范围内是均匀分布的），随着shift的不断增大，这种现象能够逐渐得到缓解。

SiamRPN++论文笔记

ResNet driven Siamese Tracking

SiamRPN++论文笔记

原始的ResNet步长较大为32，不适合Siamese网络预测，通过修改conv4和conv5块，使其具有单位空间步长，将最后两个块的有效步长由16像素和32像素降低到8像素，并通过膨胀卷积操作增加其感受野。每一个block的输出都加入了一个1X1的卷积层使输出通道数减少到256。因为每一层padding操作被保留，模板图片处理得到的特征尺寸增加15X15，所以通过裁剪选取中间部分7X7大小的特征来作为模板图片特征。使用互相关层和全卷积层的组合来组合一个head模块来计算分类分数(用S表示)和bbox回归器(用B表示)。

Layer-wise Aggregation

视觉跟踪需要从低到高、从小到大、从细到粗分辨率的丰富表示。即使在卷积网络中有深度的特征，单独的层也是不够的:将这些表示进行组合和聚合可以提高识别和定位的能力。在resnet这类深度网络中，全面卷积层获取的特征主要集中在低层信息，如颜色、形状等，对于定位是必不可少的，而缺乏语义信息；后面层的特性具有丰富的语义信息，在一些挑战场景中，如运动模糊、巨大变形时，这些信息可能是有益的。这种丰富的层次信息是可能帮助跟踪的。

将conv3，conv4和conv5输出的特征独立的输入到RPN网络中，由于三个RPN模块的输出尺寸具有相同的空间分辨率，因此可以直接对RPN输出进行加权求和。

SiamRPN++论文笔记

Depthwise Cross Correlation

互相关计算模块是一个用来整合两个分支信息的核心操作。作者提出了一个轻量级的互相关层，称为Depthwise Cross Correlation，来实现更有效的信息关联，它具有更少的参数。

Cross-Correlation用于SiamFC中，模版特征在搜索区域上按照滑窗的方式获取不同位置的响应值，最终获得一个一维的响应映射图。

Up-Channel Cross Correlation用于SiamRPN中，和Cross Correlation操作不同的是在做correlation操作之前多了两个卷积层，通道个数分别为256和256x2k，其中k表示每一个鞍点上面的anchor个数。其中一个用来提升通道数，而另一个则保持不变。之后通过卷积的方式，得到最终的输出。通过控制升维的卷积来实现最终输出特征图的通道数。

Depthwise Cross Correlation和UpChannel一样，在做correlation操作以前，模版和搜索分支会分别通过一个卷积层，但并不需要进行维度提升，这里只是为了提供一个非Siamese的特征（SiamRPN中与SiamFC不同，比如回归分支，是非对称的，因为输出不是一个响应值；需要模版分支和搜索分支关注不同的内容）。在这之后，通过类似depthwise卷积的方法，逐通道计算correlation结果，这样的好处是可以得到一个通道数非1的输出，可以在后面添加一个普通的 1x1卷积就可以得到分类和回归的结果。整个过程类似于构造检测网络的头网络。

SiamRPN++论文笔记

Experimental Results

SiamRPN++论文笔记

上图表示同时使用三个分支结合的效果明显比单支的要高，VOT上比最好的conv4还要高4个多点；从AlexNet换成了ResNet50以后，我们发现只有conv4的时候就取得了非常好的效果。虽然conv3和conv5效果没有那么好，但由于鲁棒性的提升，使得后续的提升变得有可能。同时对BackBone进行finetune也能带来接近两个点的提升；无论是AlexNet还是ResNet，装备了新的correlation方式以后，都有接近两个点提升。

作者又在多个数据集上进行了测试，取得了很好的效果。

SiamRPN++论文笔记