《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
论文地址:https://arxiv.org/abs/2003.12224

1. 问题

如下图,可以观察到:
1)随着时间的推移,视频有重复内容的冗余
2)图中可以看到有些内容偶然出现,但是却是判别性元素,如,person 1在 t = 2,3 时红色的鞋
3)在不同粒度/尺度能捕捉判别性元素/属性,如,从大的区域(粗粒度)捕捉身体形状,而从小的局部区域(细粒度)捕捉头发风格,然而缺乏有效机制来探索这样的层次特征

《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

2. 动机

attention模型旨在增强重要特征而抑制不相关特征。它们分别或顺序地学习空间维度和时间维度的attention权重,然而,由于缺少全局视角,它们面临着准确确定某个位置特征是否重要以及在整个视频片段的重复度的困难。也有工作提出采用一个多样性正则化来解决这个问题,但是仅仅只能在某种程度上缓解它。我们期望提出一种从全局角度出发共同确定各时空特征的重要程度的有效模型。此外,如上图所示,我们可以从不同粒度(不同大小区域)捕捉判别元素/语义。然而,目前缺乏有效机制来探索这一次特征

3. 贡献

本文主要有三个贡献:
1)为基于视频的行人reid提出一个Multi-Granularity Reference-aided Attentive Feature Aggregation(MG-RAFA)机制,来对空间和时间进行联合attentive特征融合
2)为更好的在不同粒度捕捉判别性语义,我们为特征融合利用多粒度的关系来推理attention
3)提出通过压缩视频数据的冗余信息,建立一个小而有代表性的参考集,以便更有效地建立关系模型

4. 相关工作

这里我们就简单讲一下跟本篇论文最相关的工作,即本篇论文受启发的论文【1】【2】:
【1】这篇论文跟本篇论文是同一作者,也都发表于CVPR2020。这两篇论文最大的区别是,该论文是做的基于图像的行人重识别,而本篇论文是基于视频的行人重识别。
【2】是做视频行为识别,提出使用一个静态vector-image,其中每点的向量值是一个视频序列对应的空间位置行为属性的一个函数,以此来紧凑地表示一个视频的信息。这两篇论文区别在于,【2】做的视频行为识别,所以运动/时间演化是重要内容,时间的运动和演化对于行人ReID一般没有判别性信息,而外观是关键。

5. Multi-Granularity Reference-aided Attentive Feature Aggregation(MG-RAFA)

1)概况
本文的目标是设计一个attentive特征聚合模块,该模块能够综合捕获有区别的信息,并从通常包含冗余、新显示内容、遮挡和模糊的视频中排除干扰。为实现这个目标,从全局的角度对时空特征的共同attention决定对鲁棒性能是重要。
本文通过探索一组参考特征节点的全局关系来为每个时空位置/节点学习attention。尤其,对于一个目标节点的全局关系建模,我们构建一个小的一组代表性特征节点作为参考,而不是使用所有的特征节点,以减少优化难度和计算复杂度。而且,判别性信息可能如上图所示在不同语义level上物理地传播,因此,我们在不同粒度中引入层次(多粒度)关系建模来捕捉语义。
Figure 2给出了我们整体框架设计,对于一个视频tracklet,我们采样T帧为:V =
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
通过一个单帧的特征提取器(此时就相当于提取一张图像特征),如,ResNet50作为backbone,我们获得了一组特征映射《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
包含H X W个特征节点,H,W,C分别表示高,宽和通道数。基于提出的multi-granularity reference-aided attention,在这个集合中的所有特征节点都被加权求和成一个特征向量v,作为最终的视频级特征表示,通过l2距离进行匹配。为了分类,接下来我们首先展示在单粒度设置下的reference-aided attentive特征融合,之后引入多粒度版本。《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
2)Reference-aided Attentive Feature Aggregation
提取特征集合
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
包含K = H X W X T个特征节点,其中每个都是一个C维的特征向量。为了确定一个特征节点的影响程度,假设所有其他特征节点也能被看见将会很有帮助,因为人们能直观地通过将某物与其他所有特征节点进行比较来确定该物的相对重要性。对于一个特征节点,为了挖掘其重要程度,我们准备每个节点的相关性/亲和度作为推理注意力的成分。对于任意节点i,当叠加它和其他节点的相关性(如,按光栅扫描顺序),相关性元素数目是D = H X W X T。
考虑到外观多样性和帧与帧之间的大量冗余,由于相关性向量的分布空间较大,可能会给挖掘模式带来困难,难以精确地确定attention。因此,本文提出通过选择一组小集合的代表性特征节点来降低难度,而不是所有特征节点,作为建模相关性推理。受【2】启发,本文在时间帧上采用平均池化来融合 Fall 成一个特征映射《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
将获得的F_R作为参考,如,参考特征节点的代表集(S-RFNs),来建模全局相关性,其中包含D = H X W 个特征节点。
对于在Fall中的一个特征节点x^i,我们计算它和在参考集F_R中的所有特征节点之间的相关性/亲和关系来建模它的对应相关性。计算一对相关性作为嵌入空间的两个节点相关性:
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020表示在参考集F_R中的一个特征节点,i和j表示节点下标,定义
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
是可学习的权重矩阵,s是一个控制降维比的正积分。通过使用一层1 x 1卷积,BN和ReLU**进行实现它。这里只是忽略了BN以简化公式。通过堆叠特征节点x^i和在参考集F_R中所有特征节点之间的成对相关性,相关性向量为
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其紧凑地反应了全局和clustering-like结构信息。另外,由于这些关系是被堆叠成一个固定扫描序列的向量,再对参考节点进行反思,因此,空间几何信息也包含在了关系向量中。
当一个人获得该节点和许多其它节点的关联时,他就可以直观地感受到该节点的影响程度。同时,描述与所有参考节点的亲和关系/相关性的相关向量提供了有价值的结构信息。其中,原始特征xi代表局部外观信息而相关性特征 r^i代表全局相关性,它们相互补充和加强,但在不同的语义空间。因此,本文将它们结合在各自的嵌入空间中,共同学习,建模,和推理特征节点xi的重要性(attention分数)程度,建模函数为
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中φ(·)和ψ(·)是两个嵌入函数,[·, ·]代表拼接操作,θ(·)表示一个对应与xi的推理attention向量a^i的建模函数。本文定义
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
W_θ ∈
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
均是可学习的权重矩阵。本文通过一层1 x 1卷积,BN和ReLU**来实现它。对于在Fall中的每个特征节点xi
(节点对应于所有空间和时间位置),本文获得一个attention分数向量a^i。对于在Fall中所有节点,有
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
我们正则化跨不同时空位置,通过Softmax函数学习到的attention分数,并获得最终的attention â^i,i =1,2,…,K。之后,本文使用最终attention作为权重来融合在Fall中的所有特征节点(从所有时空位置)。数学地,本文获得最终序列level的特征表示
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中符号⊙表示element-wise相乘。

3)Multi-Granularity Attention
人类可以在不同粒度level(如就视觉距离或图像分辨率)中捕捉不同语义(如性别,体状,衣服细节)。有些语义类型(如,一个人是否带了眼镜)可能更容易捕捉细粒度信息,而另一些(如,体状)可能更容易通过排除细节上分散的注意力来捕捉粗粒度信息。首次启发,本文提出Multi-Granularity Reference-aided Attentive Feature Aggregation (MG-RAFA),其产生attention并且引入层次化设计,旨在在不同语义level上捕捉判别性的时空信息。大体上,本文通过建模相关性区分不同粒度并产生不同分辨率的特征映射上的attention。
对于在F_R中的两个参考节点和在Fall中融合的节点,本文将他们沿着他们通道维度分成N部分/组,每个组对应一个粒度。这样,本文减少了在对比于单粒度情况下的计算复杂性。对于第m个粒度,本文在F_R和F_t的第m个切分特征都执行利用概率因子m执行空间平均池化,其中t = 1,2,…,T。本文获得被分解的参考特征
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中有节点数
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
Wm =
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
同样的,本文获得在t帧上被分解的特征映射
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
和时空特征节点集合
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
然后,本文为每组分别应用reference-aided attentive feature aggregation,因此,在公式(1)中进行相关性建模和公式(3)中进行attention建模的函数能被扩展成它们的多粒度版本
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中下标m表示粒度的下标,xi_m指的是在Fall,m中第i个节点,yj_m指的是在参考特征映射FR,m中的第j个节点。与单粒度下的特征融合相同,通过Softmax函数进行正则化attention分数并加权求和特征节点(通过不同时空位置)。最终,拼接每个切分/组(v_m表示)的融合特征来获得最终的序列level特征表达 v = 《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
4) Loss Design
最终loss为
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020
其中在每个视频特征向量v上,L_Tr是hard挖掘的三元组loss,L_ID指的是ID/分类loss(添加了标签平滑的交叉熵loss)。每个分类器包含一个BN层,紧跟着一个FC层,v_g表示每个粒度的融合特征,g = 1,2,…,N

6. 实验

1)数据集和评价度量
《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

2)成分分析

  • 有效性分析
    验证本文提出的multi-granularity reference-aided attention (MG-RAFA)模块的有效性,MG-RAFA 和 Baseline的对比结果,使用全局相关性(N=4)的有效性,单粒度和多粒度的对比结果以及模型复杂性:
    《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

  • 参考特征节点选择以及复杂性
    Ours:沿着时间维度通过融合帧特征F_t,t = 1,2,…,T,获得S-RFNs并获得一个168 = 128个特征节点的特征向量;
    S-P:沿着空间维度通过平均池化融合特征节点来获得参考集;
    T-P:沿着时间维度用不同概率执行平均池化,获得不同设置;
    ST(16
    8*8):将所有时空节点作为参考集
    《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

  • 非局部对比
    NL(ST):指的是在所有时空特征上执行非局部;
    NL(S):指的是在每帧中执行非局部;

《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

  • 多粒度(MG)延伸到其他attention
    应用本文提出的多粒度设计到其他attention机制,通过在提取特征映射F_t,t = 1,2,…,T上应用几个不同attention设计,然后进行实验:
    《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

  • 对比方法
    《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

  • 可视化
    《Multi-Granularity Reference-Aided Attentive Feature Aggregation for Videobased Person Reid》CVPR2020

7. 实验结论

1)对于基于视频行人reID提出的Multi-Granularity Reference-aided Attentive Feature Aggregation scheme (MG-RAFA)有效增强了判别性特征
2)本文设计的多粒度特征融合在多个不同attention机制中均可应用,且在视频reID中性能提升明显
3)提出使用一个参考节点的代表性集合(S-RFNs)来建模全局相关性,降低优化难度

8. 参考文献

【1】Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Xin Jin, and Zhibo Chen. Relation-aware global attention for person re-identification. In CVPR, 2020.
【2】Aaron F Bobick and James W Davis. The recognition of human movement using temporal templates