论文笔记A Twofold Siamese Network for Real-Time Object Tracking
论文笔记A Twofold Siamese Network for Real-Time Object Tracking
1. 标题及来源
A Twofold Siamese Network for Real-Time Object Tracking, CVPR 2018.
2. 阅读目的
了解注意力机制
3. 领域
object tracking
4. 拟解决的问题
- 判别能力(discrimination)弱。难以从复杂背景中区分待跟踪目标
- 泛化能力(generalization)弱。对于目标外观变化或者未知目标,追踪性能差
- 实时性差
5. 提出的方法
5.1 方法详情
- 使用通道注意力机制提升判别能力
- 融合语义特征和外貌特征提升泛化能力
网络结构如图所示。S-Net表示semantic network,A-Net表示appearance network,和SiamFC的网络结构一样
Target表示从第一帧中裁取的片段,Search region表示从待跟踪的帧中裁取的片段。
- 网络由semantic branch和appearance branch组成
- 将Target和Search region同时输入到两个分支中
a) 对于appearance branch,首先将输入图片通过A-Net提取特征,然后通过全连接层,最后计算两个特征的相关性,输出响应图
b) 对于semantic branch,首先将输入图片通过基于ImageNet训练的CNN提取特征,在训练时固定CNN的参数,即不训练CNN。让S-Net输出最后两层的特征。对于search region,直接对最后两层的特征使用11卷积保证维度一致,可以使其进行相关性计算;对于Target,对两个特征进行crop操作,将输出的特征输入到attention中,然后输出每个维度的权重,将输出的权重和进行crop操作之后的特征相乘,然后将输出的特征进行11卷积保证维度一致,可以使其进行相关性计算。最后计算从Target和seachr region中提取的特征的相关性,输出响应图 - 在测试时,将两个分支的响应图通过下面公式结合,最大值对应的位置就是待跟踪目标的位置。
是一个超参,用来控制两个分支所占的权重,原文中λ取0.3
5.2 注意力机制
注意力机制:
- 首先使用S-Net提取包含周围环境信息的Target的特征
- 将输出特征的每个通道作为注意力机制的输入,即channel i
- 将输入划分为9个单元格,中间单元格的尺寸是6*6,这个也是目标的中心区域
- 对每个单元格使用最大池化,得到池化后的特征图
- 通过MLP对这个通道生成一个系数(MLP:含有9个神经元的单层网络,使用ReLu**)
- 将生成的系数通过sigmoid**得到该通道的比例系数
6. 结果
6.1 OTB实验结果
6.2 VOT实验结果
6.3 消融实验
App.表示appearance model,Sem.表示semantic model,ML表示multilevel feature,Att.表示attention module。通过对比该表的实验结果,第三行表示SA-Siam结合了semantic feature和appearance feature之后的结果,从表中可以发现它的提升非常大。当引入ML和attention module之后,可以发现,它的提升更加明显。
从表中可以发现,单独使用appearance feature或semantic feature或结合appearance feature或结合semantic feature都没有结合appearace feature和semantic feature的效果好。
作者以david和bolt为例,选取了conv4和conv5的权重。
- conv4和conv5的权重分布完全不同,这意味着注意力机制对使用了多特征融合模块的影响更大
- conv4中david和bolt的权重分布完全不同,这意味着对于bolt,注意力机制会抑制更多的channel
7. 改进&存在的问题
通过观察论文中的这幅图像发现SA-Siam的鲁棒性确实优于其它算法,尤其是复杂场景的跟踪。即使人为跟踪,我们也可以发现难度非常大。但是这些图像都有一个共性,那就是物体的形变相对较小,没有非常大的形变。同时观察Matrix那个我们可以发现,在#0044那幅图片中,SA-Siam算法的定位框并没有充分定位物体。因此本算法可能会存在以下问题:
- 定位框的精确度
- 是否能很好地适应大尺度变化,例如第一篇论文中的那个车
另外一个问题和第一篇论文中的问题二一样,Precision plots of OPE的值应该是阈值为20时对应的值
8. 可借鉴的点
- 注意力机制
9. 知识补充
无