论文笔记A Twofold Siamese Network for Real-Time Object Tracking

1. 标题及来源

A Twofold Siamese Network for Real-Time Object Tracking, CVPR 2018.

2. 阅读目的

了解注意力机制

3. 领域

object tracking

4. 拟解决的问题

  1. 判别能力(discrimination)弱。难以从复杂背景中区分待跟踪目标
  2. 泛化能力(generalization)弱。对于目标外观变化或者未知目标,追踪性能差
  3. 实时性差

5. 提出的方法

5.1 方法详情

  1. 使用通道注意力机制提升判别能力
  2. 融合语义特征和外貌特征提升泛化能力

论文笔记A Twofold Siamese Network for Real-Time Object Tracking
网络结构如图所示。S-Net表示semantic network,A-Net表示appearance network,和SiamFC的网络结构一样
Target表示从第一帧中裁取的片段,Search region表示从待跟踪的帧中裁取的片段。

  1. 网络由semantic branch和appearance branch组成
  2. 将Target和Search region同时输入到两个分支中
    a) 对于appearance branch,首先将输入图片通过A-Net提取特征,然后通过全连接层,最后计算两个特征的相关性,输出响应图
    b) 对于semantic branch,首先将输入图片通过基于ImageNet训练的CNN提取特征,在训练时固定CNN的参数,即不训练CNN。让S-Net输出最后两层的特征。对于search region,直接对最后两层的特征使用11卷积保证维度一致,可以使其进行相关性计算;对于Target,对两个特征进行crop操作,将输出的特征输入到attention中,然后输出每个维度的权重,将输出的权重和进行crop操作之后的特征相乘,然后将输出的特征进行11卷积保证维度一致,可以使其进行相关性计算。最后计算从Target和seachr region中提取的特征的相关性,输出响应图
  3. 在测试时,将两个分支的响应图通过下面公式结合,最大值对应的位置就是待跟踪目标的位置。
    h(zs,X)=λhz(z,X)+(1λ)hz(zs,X)h(z^s, X) = \lambda h_z(z, X) + (1 - \lambda) h_z(z_s, X) λ\lambda是一个超参,用来控制两个分支所占的权重,原文中λ取0.3

5.2 注意力机制

论文笔记A Twofold Siamese Network for Real-Time Object Tracking
注意力机制:

  1. 首先使用S-Net提取包含周围环境信息的Target的特征
  2. 将输出特征的每个通道作为注意力机制的输入,即channel i
  3. 将输入划分为9个单元格,中间单元格的尺寸是6*6,这个也是目标的中心区域
  4. 对每个单元格使用最大池化,得到池化后的特征图
  5. 通过MLP对这个通道生成一个系数(MLP:含有9个神经元的单层网络,使用ReLu**)
  6. 将生成的系数通过sigmoid**得到该通道的比例系数

6. 结果

6.1 OTB实验结果

论文笔记A Twofold Siamese Network for Real-Time Object Tracking
论文笔记A Twofold Siamese Network for Real-Time Object Tracking

6.2 VOT实验结果

论文笔记A Twofold Siamese Network for Real-Time Object Tracking
论文笔记A Twofold Siamese Network for Real-Time Object Tracking
论文笔记A Twofold Siamese Network for Real-Time Object Tracking

6.3 消融实验

论文笔记A Twofold Siamese Network for Real-Time Object Tracking
App.表示appearance model,Sem.表示semantic model,ML表示multilevel feature,Att.表示attention module。通过对比该表的实验结果,第三行表示SA-Siam结合了semantic feature和appearance feature之后的结果,从表中可以发现它的提升非常大。当引入ML和attention module之后,可以发现,它的提升更加明显。
论文笔记A Twofold Siamese Network for Real-Time Object Tracking
从表中可以发现,单独使用appearance feature或semantic feature或结合appearance feature或结合semantic feature都没有结合appearace feature和semantic feature的效果好。
论文笔记A Twofold Siamese Network for Real-Time Object Tracking
作者以david和bolt为例,选取了conv4和conv5的权重。

  1. conv4和conv5的权重分布完全不同,这意味着注意力机制对使用了多特征融合模块的影响更大
  2. conv4中david和bolt的权重分布完全不同,这意味着对于bolt,注意力机制会抑制更多的channel

7. 改进&存在的问题

论文笔记A Twofold Siamese Network for Real-Time Object Tracking
通过观察论文中的这幅图像发现SA-Siam的鲁棒性确实优于其它算法,尤其是复杂场景的跟踪。即使人为跟踪,我们也可以发现难度非常大。但是这些图像都有一个共性,那就是物体的形变相对较小,没有非常大的形变。同时观察Matrix那个我们可以发现,在#0044那幅图片中,SA-Siam算法的定位框并没有充分定位物体。因此本算法可能会存在以下问题:

  1. 定位框的精确度
  2. 是否能很好地适应大尺度变化,例如第一篇论文中的那个车
    另外一个问题和第一篇论文中的问题二一样,Precision plots of OPE的值应该是阈值为20时对应的值

8. 可借鉴的点

  1. 注意力机制

9. 知识补充