Attention-Aware Compositional Network for Person Re-identification

创新点:

        传统利用注意力机制进行行人重识别的方法中,都是利用矩形区域(RoI:region of interest)来获得注意力,包含了很多背景干扰。作者提出了一种通过人体躯干轮廓来更精准的获得注意力(PPA),然后利用注意力对全局特征更好的进行对齐,提取行人特征(AFC网络)。

作者的方法:

1)网络结构

Attention-Aware Compositional Network for Person Re-identification

2)PPA

Attention-Aware Compositional Network for Person Re-identification

对人体进行解析,确定了14个关键点(0-13)。然后关键点之间相连,宽度为sigma,形成11个non-rigid part (1-2 2-3不算)N;多个关键点构成3个rigid part  R 。训练后得到能够准确提取p张(p=11+3) MXN的attention图 M。

3)AFC

Attention-Aware Compositional Network for Person Re-identification

这个式子从下往上看,F是用一个预先训练好的网络提取的行人全局特征,size:MxNx256。将PPA提取的MXNXP的attention进行一下归一化,然后p张中每一张都与F做一次对应元素点乘,得到p个MxNx256的F^a_p,然后进行global avg pool得到p个256的向量,然后concat一起得到size:256xp的f^a ( 叫做:attention-aware aligned feature vector)。

前面的操作很好的关注到了人的pose, 后面的操作是为了能够注意到其他显著性信息,如人背的包等。

然后将f^a和attention产生的分数V(1xp 表示p部分每部分的面积,对应重要程度)连接,然后通过1x1的全连接产生w权重,w一共有p个 size:1xp,然后将每个部位的权重乘到对应的f^a上去(共px256个),然后连接在一起,再经过一个卷积层,得到1024维的行人特征。 

4)训练细节:

1、先用 pose loss训练注意力网络(PPA)

2、再用reid loss(分类和验证损失)训练GCN

3、将训练好的PPA和GCN应用在AFC剩余部分,用reid loss训练

4、最后所有模块装在一起,再fine-tuned