Learning Discriminative Features with Multiple Granularities for Person Re-Identification 论文翻译&笔记

论文地址:https://arxiv.org/pdf/1804.01438.pdf

github实现:https://github.com/seathiefwang/MGN-pytorch

参考通天塔翻译:http://tongtianta.site/paper/2487

摘要:全局和局部特征的组合已经成为改善行人重识别(Re-ID)任务中的判别性能的基本解决方案。 以前基于部分的方法主要侧重于定位具有特定预定义语义的区域以学习局部表示,这增加了学习难度,且对于具有大差异的场景不具有效率或鲁棒性。 在本文中,我们提出了一种将判别信息与各种粒度相结合的端到端特征学习策略。我们精心设计了多粒度网络(MGN),这是一种多分支深度网络架构,包括一个用于全局特征表示的分支和两个用于局部特征表示的分支。 我们不是学习语义区域,而是将图像统一划分为多个条带,并改变不同本地分支中的部分数量,以获得具有多个粒度的局部特征表示。在包括Market-1501,DukeMTMC-reid和CUHK03在内的主流评估数据集上实施的综合实验表明,我们的方法可以有力地实现最先进的性能,并且大大优于任何现有方法。 例如,在单一查询模式下的Market-1501数据集中,我们在重新排名后使用此方法获得Rank-1 / mAP = 96.6%/ 94.2%的最高结果。

                                    Learning Discriminative Features with Multiple Granularities for Person Re-Identification 论文翻译&笔记                         

fig.1 身体部分从粗粒度到细粒度分区。 我们将原始行人图像与整个身体视为左列中最粗糙的粒度级别。 中间和右侧列分别是从原始图像分成2和3个条纹的行人分区。 分割的图像越多,分区的粒度越精细。

1、INTRODUCTION

行人重识别(Re-ID)是在不同安全摄像机捕获的所有画廊行人图像中检索给定人物的挑战性任务。 由于来自监控视频的图像的场景复杂性,Re-ID的主要挑战来自人的大变化,如姿势,遮挡,衣服,背景杂乱,检测失败等。深度卷积网络的繁荣引入了更多强大的表现形式,对行人图像具有更好的辨别力和稳健性,将Re-ID的性能提升到一个新的水平。 最近的一些深度Re-ID方法[4,5,22,27,29,30,36]在高水平识别率和平均精度方面取得了突破。

行人表示的直观方法是从图像中提取全身的辨别特征。 全球特征学习的目的是捕捉最显着的外观线索,以代表不同行人的身份。 然而,在监视场景中捕获的图像的高复杂性通常限制了大规模Re-ID场景中的特征学习的准确性。由于人Re-ID训练数据集的有限规模和弱多样性,一些非显着或不常见的详细信息可以是 在全局特征学习过程中,容易被忽略并且没有为更好的区分做出贡献,这使得全局特征难以适应类似的类间共同属性或大的类内差异。

为了缓解这种困境,已经确认从图像中定位重要的身体部位以表示身份的本地信息是在许多以前的工作中更好的Re-ID准确性的有效方法。每个定位的身体部位区域仅包含来自全身的一小部分本地信息,同时通过定位操作实际上过滤了区域外的其他相关或不相关信息,通过定位操作可以学习局部特征以集中更多关于身份并用作全球特征的重要补充。人员Re-ID的基于部分的方法可以根据其部分定位方法分为三个主要途径:1)定位具有强结构信息的部分区域,例如关于人体的经验知识[8,21,36,43]或强基于学习的姿势信息[33,44]; 2)按地区建议方法定位部分地区[19,41]; 3)通过中层关注增强功能
在突出的分区[22,24,25,45]。但是,明显的局限性阻碍了这些方法的有效性。首先,姿势或遮挡变化会影响局部表示的可靠性。其次,这些方法几乎只关注具有固定语义的特定部分,但不能涵盖所有的判别信息。最后但同样重要的是,大多数这些方法都不是端到端的学习过程,这增加了特征学习的复杂性和难度。

在本文中,我们提出了一种结合不同粒度的全局和本地信息的特征学习策略。 如图1所示,各种数量的分区条带引入了多种内容粒度。 我们定义仅包含一个整体分区的原始图像,其中全局信息作为最粗糙的情况,并且随着分区数量的增加,本地部分的特征可以更集中于每个部分条带中的更精细的判别信息,过滤其他条带上的信息。 由于深度学习机制可以从整个图像捕获主体上的近似响应偏好,因此还可以捕获从较小部分区域提取的局部特征的更细粒度的特性。请注意,这些部分区域不必定位于具有特定语义的分区,而只需要在原始图像上定位一条等分割条带。 从观察中我们发现,随着水平条纹数量的增加,判别响应的粒度确实变得更精细。 基于这一动机,我们设计了多粒度网络(MGN),这是一个多分支网络架构,分为一个全局和两个本地分支,其中包含来自ResNet-50 [13]骨干的第四个剩余阶段的精细参数。 在MGN的每个局部分支中,我们将全局合并的特征映射划分为不同数量的条带作为部分区域,以独立地学习局部特征表示,参考[36]中的方法。

与以前基于部分的方法相比,我们的方法仅使用等分的部分进行局部表示,但是可以实现超过以前所有方法的出色性能。 此外,我们的方法完全是一个端到端的学习过程,易于学习和实施。 广泛的实验结果表明,我们的方法可以在几个主流Re-ID数据集上实现最先进的性能,即使设置没有任何额外的外部数据或重新排序[50]操作。

2、 RELATED WORKS

随着深度学习的兴起,深度网络的特征学习已经成为人们Re-ID任务的常见做法。[20,42]首先将深层暹罗网络架构引入到ReID中并结合身体部分特征学习,与现代手工制作的方法相比,实现了更高的性能。[47]提出ID识别嵌入(IDE)与简单的ResNet-50骨干作为现代深度Re-ID系统性能水平的基线。 提出了许多方法来改善深人Re-ID的性能。 在[1,37]中,计算图像对的中间特征以用精心设计的机制描绘局部部分的相互关系。 [39]引入了Domain Guided Dropout来增强不同行人场景领域的泛化能力。 [50]将重新排名策略带入Re-ID任务,以修改排名结果以提高准确性。

最近,一些深度的Re-ID方法将性能提升到了与以前的系统相比的新水平。 [43]在训练阶段引入了基于部分的对齐匹配,具有最短路径编程和相互学习,以提高度量学习性能。 [3,36]两者均将输入图像的特征图等分为垂直方向的几个条纹。 [3]将局部特征切片与LSTM网络合并,并与从分类度量学习中学到的全局特征相结合。 而[36]直接将来自本地部分的特征连接为最终表示,并应用精化部分池来修改部分特征的映射验证。 然而,根据[43]的报告,这些系统只能达到与人类相似的性能,我们仍然需要超越。

在所有性能改进策略中,我们认为将图像部分的局部表示组合起来是最有效的。如第1部分所述,我们总结了基于部分学习的三种主要途径:根据人体结构信息确定区域,按区域建议方法定位身体部位,通过空间注意增强特征。在[8,21,36]中,根据内在的人体结构知识将图像全部分成水平方向的几个条纹,在其上学习局部特征表示。 [33,44]利用由姿势估计方法预测的身体地标的结构信息来用语义来裁剪更准确的区域区域。为了在没有基于学习的强预测器的情况下定位语义分区,在诸如[11,18]的区域提议方法中采用了一些基于部分的方法[19,22,25,41,45]。注意信息可以成为歧视的有力补充,在[22,24,25]中得到了加强。在我们提出的方法中,我们仅使用简单的水平条纹作为局部特征学习的部分区域,但是实现了出色的性能。

损失函数用作特征学习中的监督信号。 在深度Re-ID系统的培训阶段,最常见的损失函数是分类损失和度量损失。 Softmax损失几乎是分类丢失函数的唯一选择,因为它对各种多类分类任务具有很强的鲁棒性,它可以单独使用[1,19,22,25,36,39,41,47]或与其他损失[3,8,20,43]结合用于嵌入Re-ID的学习程序。对于用于嵌入Re-ID学习的度量损失,存在具有不同排名度量的更多变体。 对比性损失[12]通常用于喜欢暹罗的网络[37],其重点是最大化类间对之间的距离并最小化类内对之间的距离。 三联体损失[15,28]在具有三联体的相同锚样本的内部距离和内部距离之间实施边界。 基于三元组丢失,提出了许多变体[6,8,14,32]来解决度量学习中的学习或性能问题。 我们在所提出的方法中采用了softmax和triplet损失的联合学习设置。

3、 MULTIPLE GRANULARITY NETWORK

                                     Learning Discriminative Features with Multiple Granularities for Person Re-Identification 论文翻译&笔记

fig.2 从不同模型的最后输出中提取的不同粒度的特征响应图。 响应强度通过来自所有空间位置的特征向量的L2范数来计算。 中柱:行人形象。 左列:IDE嵌入的全局响应映射。 右栏:三个局部响应图,对应于原始图像的三个分割条纹,由基于部分的模型提取。 最好看的颜色。

图2显示了从IDE基线模型[47]中提取的特定图像的特征响应图和基于IDE的基于部件的模型。 我们可以观察到,即使没有明确的注意机制来增强对某些突出组件的偏好,深层网络仍然可以根据其固有的语义含义来学习不同身体部位的响应偏好的初步区分。 然而,为了消除高度复杂的行人图像中不相关模式的分散,更高的响应仅集中在行人的主体上,而不是具有语义模式的任何具体的身体部位。 当我们缩小代表区域的面积并训练作为分类任务来学习局部特征时,我们可以观察到局部特征图上的响应开始聚集在一些显着的语义模式上,这些语义模式也随着表示区域的大小而变化。

该观察结果反映了图像内容的体积,即区域的粒度,以及深度网络关注于表示的特定模式的能力之间的关系。 我们认为这种现象来自限制区域的信息限制。 通常,与全局图像相比,直观地难以从局部区分行人的身份。 监督分类任务的信号强制要素被正确地分类为目标身份,这也促使学习过程试图在有限信息中探索有用的细粒度细节。

实际上,在先前基于部分的方法中的局部特征学习仅在具有或不具有经验先验知识的情况下将分区的基本粒度多样性引入到总特征学习过程中。 假设存在适当的粒度级别,具有大多数判别信息的细节可能几乎集中在深度网络上。 在上述观察和分析的推动下,我们提出了多粒度网络(MGN)架构,将全局和多粒度局部特征学习结合起来,以实现更强大的行人表示。

3.1 Network Architecture

多粒度网络的体系结构如图3所示。我们网络的主干是ResNet-50,它有助于在一些Re-ID系统中实现竞争性能[3,36,43]。 与原始版本不同的最明显的修改是我们将res_conv4_1块之后的后续部分划分为三个独立的分支,与原始ResNet-50共享相似的体系结构。

Learning Discriminative Features with Multiple Granularities for Person Re-Identification 论文翻译&笔记

fig.3 多粒度网络架构。 在res_conv4_1剩余块之后,ResNet-50主干分为三个分支:全局分支,第2部分分支和第3部分分支。 在测试期间,所有缩小的特征被连接在一起作为行人图像的最终特征表示。 请注意,每个分支中用于标识预测的1×1卷降维和完全连接层不会彼此共享权重。 从特征到特定损耗函数的每条路径表示独立的监控信号。 

                                     Learning Discriminative Features with Multiple Granularities for Person Re-Identification 论文翻译&笔记 

表1列出了这些分支的设置。 在上部分支中,我们在res_conv5_1块中使用stride-2卷积层进行下采样,在相应的输出特征映射上执行全局最大池(GMP)[2]操作,并使用批量归一化的1×1卷积层 [17],ReLU将2048-dim特征z减少到256-dim f。该分支学习全局特征表示而没有任何分区信息,因此我们将该分支命名为全局分支。

中间和下级分支都与Global Branch共享类似的网络架构。 不同之处在于我们在res_conv5_1块中不使用下采样操作来保留局部特征的接收字段的适当区域,并且每个分支中的输出特征映射在水平方向上均匀地分成几个条带,我们独立执行与Global Branch相同的以下操作以学习本地特征表示。 我们将这些分支称为Part-N Branch,其中N指的是未减少的特征映射上的分区数,例如, 图3中的中间和下部分支可以命名为Part-2和Part-3 Branch。

在测试阶段,为了获得最强大的区分,所有减少到256-dim的功能被连接为最终特征,结合全局和本地信息,以完善学习功能的全面性。

3.2 Loss Functions

为了发挥该网络架构的学习表示的辨别能力,我们将用于分类的softmax损失和用于度量学习的三元组损失用作训练阶段中的损失函数,其在各种深度Re-ID方法中广泛使用。

对于基本的辨别学习,我们把识别任务作为多类分类问题。 对于第i个学习特征fi,softmax损失表示为:

                          Learning Discriminative Features with Multiple Granularities for Person Re-Identification 论文翻译&笔记

。。。。省略部分

在MGN架构中,为了避免损失权重调整问题和收敛困难,我们新颖地提出了分类 - 先度量架构,它将softmax损失应用于Part-2和Part-3分支中减少的256-dim局部特征,以及所有未减少的全局汇总2048-dim全局特征,但对所有减少的特征应用三重态损失,这与使用三重态损失的现有方法不同。 此设置的灵感来自粗tofine机制,将非简化特征视为粗略信息以学习分类,将特征简化为具有学习度量的精细信息。 与在相同的简化特征水平上施加关节效应相比,所提出的设置实现了稳健的收敛。 此外,我们不会在局部特征上使用三重损失。 由于不对齐或其他问题,本地区域的内容可能会发生巨大变化,这使得三元组丢失往往会在训练期间破坏模型。

3.3 Discussions

在我们提出的多粒度网络架构中,有一些问题值得我们单独讨论。 在本段中,我们具体讨论了以下问题:

多分支架构  根据我们对MGN架构的最初动机,全局和局部表示都是在一个分支中学习似乎是合理的。 我们可以直接将res_conv5_3提取的相同最终特征图分割成不同数量的条带,并应用相应的监控信号作为我们提出的方法。 但是,我们发现此设置无法进一步提高性能。 借用[34]中的想法,原因可能是共享相似网络架构的分支(主要是ResNet-50的第四个剩余阶段)仅响应图像的不同级别的详细信息。 使用一个混合的单个分支以多个粒度学习特征可能会削弱详细信息的重要性。 此外,我们尝试在较浅或较深的层之后分割骨干网络,这也没有达到更好的性能 

粒度的多样性  我们的网络架构中的三个分支实际上学习了具有不同参数的信息。 具有较大接收区域和全局最大池的全局分支捕获来自行人图像的整体但粗略的特征,并且部分2和部分3分支学习的特征没有跨步卷积和条纹的分割部分倾向于局部但是很好。 具有更多分区的分支将学习更精细的行人图像表示。 学习不同偏好的分支机构可以合作地将低级别区分信息补充到公共主*分,这是任何单个分支中性能提升的原因。