【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification

前言

第三篇了,加油,我能行。。。

摘要

主流方法更多的关注的是个类样例中图片和标签的联系,而忽视了总特征图中丰富的交互信息。我们提出了一种方法叫做masked graph attention network(MGAT)解决这个问题。
MGAT在一张由提取出来特征组成的完全图上操作,在这张图上,节点能在标签信息(以mask矩阵表示的)的引导下和其它节点相互联系。通过MGAT模块,先前可能被忽视的全局的交互信息就可能被挖掘出来,并且生成一个优化后的有着更具分辨力的特征空间。同时,我们提议在一个特征嵌入网络(feature-embedding network)中反馈MGAT学习过程中的最优化信息以此来提高映射能力,从而避免网络难以处理在测试阶段大尺度图的困难。
在三个数据集的测试表明,我们的方法胜过大多数主流SOTA方法。

1.介绍

大多数主流的方法利用id loss独立的估计每个特征的分类标签,忽视了所有feature之间的丰富的交互信息。换句话说,它们只关注了特征图的分类特征,而特征之间的聚类特征没有被关注,这个聚类特征描述的是相同特征聚类,不同特征分离的程度。辨别分析研究表明,更多的区分特征需要更好的聚类信息,而当前方法很少考虑这一点。
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification
作者提出了一种新颖的GATs的拓展,叫做masked graph attention network(似乎可以翻译成掩码注意力机制图神经网络)MGAT去探索特征之间丰富的交互信息。这个网络的核心依赖于节点更新的掩码注意力机制,这和通过注意力矩阵只统计相似节点的卷积图神经网络有很大不同。
具体的,我们先把学习到的特征embedding网路重建成一个完整的图。然后我们的MGAT用注意力机制提供节点更新权重,然后通过掩码矩阵决定节点更新的方向(例如,拉近相同类别,或者推开不同类别节点)因此,特征最终得到了一个改良的聚类特征。
MGAT的优化输出特征直接被id loss监督,确保足够的分类特征。另外,最优化信息被进一步反馈到了原始特征,用一个optimization feedback(OF)loss。这样做的目的是提高特征嵌入网络的映射能力,从而避免后续操作或者一些不是端到端的处理(比如重排序)。

2.近期工作

2.1 行人重识别

2.2 图注意力神经网络

3.所提方法

在这一部分,我们接受MGAT与ResNet50整合的baseline来做reid任务。首先概述一下,然后详细说明模型结构和loss函数的设计。
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification

3.1 概述

上图展示了我们的流程结构。网络架构主要分为三个部分:特征提取、通过MGAT进行特征最优化、最后使用OF loss把学习到的最优化信息喂回到CNN网络(特征嵌入空间)。
给一个batch的图像,我们首先使用CNN提取一系列特征记作X,每一个特征都唯一对应一个相关联的图像。把一系列的特征图当作一系列节点,我们构建一个完全图。在这个图上,每一条边描述的是连接节点的相似程度(包括自节点)。相似性可以用很多方法实现。然后,这个创建的完全图被输入到MGAT去优化。需要注意的是MGAT的输出特征X’直接被id loss监督,以此来保证分类特征的有效性。
同时,我们介绍OF loss约束输出特征和原始特征的不同。它被用来反馈MGAT学习到的优化信息并反应到特征嵌入网络中,使得(在测试阶段)特征嵌入网络可以直接生成优化后的特征(没有任何后续操作)。有时候图像集非常大!所以这是非常不高效甚至是不可用的直接把他们当作图来处理。
总的来说,我们网络架构的原则是提高特征嵌入网络的学习能力(通过使用我们提出的MGAT结构),以至于我们能探索到更多的可区分的特征空间。

3.2 MGAT网络

MGAT网络是用来干嘛的呢,是用来解决行人重识别中被忽视的有价值的交互信息,从而得到最优的聚类特征。
就像很多注意力机制一样,MGAT也是跟随Bahdanau的工作,但是又有一点不同的注意力机制。我们首先讲一下MGAT的输入和输出,然后重点关注建立掩码注意力记住。
MGAT的输入是CNN网络提取的一系列特征,X,即N个d维度的特征。我们的MGAT输出是一个新的特征集X’,即N个d’维度的特征。为了让优化后的特征进一步监督原始的特征,我们指定d’=d。
MGAT在图结构上工作。把特征当作节点,两个节点的距离叫做边E,我们构建了一个完全图G(X,E)。用Euclidean dis来决定两个节点(xi,xj)之间的边长eij。
MGAT的创新是yan掩码注意力机制。它是一种为边设计的为了达到提升聚类表现的架构。更具体来说,我们的注意力机制包括两个部分:注意力矩阵A和掩码矩阵M。

3.2.1 注意力矩阵

注意力机制通常被用来揭示两个特征图之间的关系。在我们的完全图中,由于两节点的距离是由边唯一确定的,所以我们能简单的定义注意力方程f,把边映射到注意力中。实际中,我们这样定义注意力。公式如下:
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification
上式中左边是指i和j节点关系的重要性,y是一个超参数,帮助映射注意力在一个小的在0附近的值。我们能观察到,越短得边,会得到更高的注意力。
在许多GCNs中,为了整合图结构,一个节点通常只被它领域中第一个临近节点影响。但是由于我们创建的是一个完全图,只包含一个batch中的图像,所以我们计算每一个节点和其他所有节点的注意力去得到全局信息。为了提高不同节点的兼容性,我们使用了L1正则化,公式如下:
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification
对于一个batch中的N个图,我们得到了一个一排N×NN \times N的注意力矩阵A,在这个矩阵中,第i个节点对于其他所有节点的注意力值在第i行。

3.2.2 掩码矩阵

注意力矩阵代表的是图中节点信息的重要性,GCNs和GATs会使用这些信息去更新节点(基于连接节点最有可能是同类别的假设)。然鹅,这个假设可能限制模型的容量,因为这只考虑到了相似性,而忽视了不同程度。并且它也难以处理困难样本。
为了解决这个问题,沿着注意力矩阵的思路,我们介绍一下掩码矩阵(为了决定我们朝哪个方向去聚集节点)。例如我们缩短同类标签的的边长,增长其他情况,以一种注意力的方式。更具体的来说,比如我们batch size为N,包含M个ID,每个IDK张图片。如下图的结构:
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification
yi是指id为i的标签,掩码矩阵的元素由下式计算:
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification
那个符号意思是向下取整,掩码矩阵由1(K×KK\times K)的对角矩阵,还有其他元素都为-1。
掩码函数作为一个注意力掩码,把他与注意力矩阵A对应相乘,这确保了相同类别注意力的值是正的,不同类别是负的,这样就使同类的相似性增加,同时不同类的相似性减少。简单的来说,掩码矩阵把节点标签携带的信息加入到了注意力的监督中,因此得到了更好的聚类特征。
这里还有一点小问题,负值的掩码值会破坏正则化的结果,但是实际上,正则化的在这里的作用是让注意力值更加兼容,这样的操作也会影响权重衰减。(这里不太懂,大佬解答一下!!!)

3.2.3 节点更新

这里写了很多理论推导,公式有点多,就不贴了,也有点地方还有疑惑,主要意思是,通过这个掩码矩阵,我们给了一些注意力在不同类的节点,也就是更新节点时,每个节点都与它周围的节点有信息流动。
具体图示如下,红色是不同类别,绿色是相同类别,直线是聚合,波浪线是分离。
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification

3.3 OF loss

为了避免在测试阶段大量的构建图的工作,我们用简单的MSE来衡量MGAT输出特征和原始特征之间的关系(也就是说,在训练阶段,用MGAT来训练,之后在测试的时候,直接用OF loss来代替MGAT由CNN直接生成优化后的输出特征)。作者说他们没有独立的研究这样做对最后的结果有何影响。

4.实验

具体训练过程就不说了,他也没有开源。直接放一下各个数据集的表现吧,这篇文章思路很好!以后可以尝试一下。嘻嘻。
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification
【ReID论文阅读(三)】(2019CVPR)Masked Graph Attention Network for Person Re-Identification