Human Semantic Parsing for Person Re-identification(Parsing 方法)
4.Human Semantic Parsing for Person Re-identification(Parsing 方法)
语义解析用于重识别
摘要
为了改善表示学习,通常提取人体部位的局部特征。但是,这种过程的通常做法是基于边界框部分检测。在本文中,我们建议采用人为语义分析,由于其像素级精度和建模任意轮廓的能力,自然是更好的选择。我们提出的SPReID将人类语义解析集中在重识别中,不仅显着优于其反基线,而且实现了最先进的性能。我们还表明,通过采用简单而有效的培训策略,标准流行的深度卷积体系结构(如Inception-V3和ResNet-152)在不进行修改的情况下,仅在完整图像上运行时,可以大幅超越目前的最新技术水平。我们提出的方法改善了最先进的人重新识别:Market-1501 [48],mAP约为17%,rank-1约为6%,CUHK03 [24]约为4%,rank-1和DukeMMC-reID [50],mAP约为24%,rank-1约为10%。
Given a query image, 重识别是从大型图库中检索相同身份的所有图像的问题,其中查询和图库图像由可能或可能不具有任何视野重叠的独特不同的相机捕获。因此它可以被看作是一个交叉相机数据关联问题。
重识别是一项非常具有挑战性的任务。首先,当一个人被两个不同的相机捕捉时,人的照明条件,背景杂波,遮挡,可观察的人体部位以及感知姿势可以显着不同。其次,即使在一台照相机中,随着人们移动并参与不同的动作(例如在行走时突然从包中取出某物),前述条件可随时间变化。第三,gallery本身通常由来自多个摄像机的单个人的不同图像组成,这些图像考虑到上述因素,产生了巨大的类内变体,从而阻碍了学习表示的泛化。第四,与诸如对象识别或检测之类的问题相比,图像个人重新识别基准通常具有较低的分辨率,使得难以提取区别性特征来区分一个身份与另一个身份。考虑到上述挑战,有效的人员重新识别系统有义务学习关于相机视角的身份特定,上下文不变和不可知的表示。
近年来,通过利用从人体部位提取的局部(部分级别)特征来改善全球(图像级别)表征是re-id研究的主题。虽然图像级表示容易出现背景混乱和遮挡,但部分级表示应该更健壮。然而,低分辨率图像中的部分检测有其自身的挑战,并且该阶段的任何错误都可能传播到整个人重新识别系统。这就是为什么一些研究工作更喜欢简单地从多个图像补丁(通常是水平条纹)中提取与人体部位松散关联的图像。另一方面,几乎涉及身体部位的所有以前的作品都是从一个通常的现成姿态估计模型开始的,并根据预测的关节位置推断相应的边界框。人重新识别系统然后处理全局和局部表示,可以粗略地看作是多分支深度卷积神经网络(CNN)体系结构。这些模型在提供非常好的结果的同时,通常由多个分阶段训练的子模型组成,这些模型专门针对re-id而量身定制。
通过研究最近的文献,本文提出了两个主要问题。首先,是否需要这种复杂的模型来提高re-id的性能?其次,使用人体部位上的边界框可以最好地捕获局部特征吗?
针对第一个问题,我们展示了一个基于Inception-V3的简单模型[37],没有花里胡哨的工作,仅在全身图像上进行操作,并且在简单的训练过程中进行了优化,可以超越目前的最新技术水平。与最近通常采用的二元或三元损失研究不同,我们使用两个不同输入分辨率下的softmax交叉熵来训练模型。使用重新排名作为后期处理技术,改善幅度进一步增加。
为了解决第二个问题,我们建议使用语义分割semantic segmentation,,更具体地说是人类语义分析human semic parsing,作为边界框的替代以便从人体部位提取局部特征。
尽管边界框粗糙,可以包含背景,并且不能捕捉人体的可变形性质,但是即使在严重的姿态变化下,语义分割也能够精确定位各种身体部位的任意轮廓。我们从训练人体语义解析模型开始,该模型学习将人体分割成多个语义区域,然后利用它们利用局部线索进行人物重新识别。我们分析了将人类语义分析整合到重新识别中的两种变化,并表明它们提供了互补表示。本文的贡献如下:
通过大量实验,我们证明,我们简单而有效的培训程序可以显着超越目前的最新技术水平。我们使用两种标准的深度卷积体系结构来验证我们的观测结果,即三种不同基准的Inception-V3 [37]和ResNet-152 [16]。
•我们建议使用SPReID,其中人类语义解析用于利用本地视觉线索进行人员重新识别。为此,我们训练我们自己的语义分割模型,并且表明它不仅有助于提高人的重新识别,而且还实现了人类语义分析问题的最新性能,从而展示了我们模型的质量。
Related work
一些作品[47,34]尝试通过将姿态估计明确地集成到人重新识别中来解决偏移问题(比光识别part好),其中使用现成姿态估计模型将部分位置初始化为四边形,然后通过仿射变换或空间对齐变压器网络[19]。
3.3. Person Re-identification Model
为了利用局部视觉线索,我们使用与五个不同身体区域相关联的概率图,即前景,头部,上半身,下半身和鞋子。这些概率图由人类语义解析模型生成,并且每个通道都是L1归一化的”。在SPReID中,我们将CNN主干的输出**多次汇集起来,每次使用五个概率图中的一个。
这与全球平均汇集形成鲜明对比,这对于空间域**发生的位置是不可知的。不难看出,与人体部位相关联的不同语义区域内的专门聚集**可被看作是加权和操作,其中概率图被用作权重。从实现的角度来看,这等于重新识别骨干网的输出与人类语义解析之间的矩阵乘法,其中相应的空间域被平坦化。这样的程序导致五个2048-D特征向量各自专门代表一个人体区域。接下来,我们对头部,上半身,下半身和鞋子的表示进行基于元素的最大操作,并将结果与前景以及之前描述的全局图像连接起来。我们提出的技术适用于任何卷积骨干选择,并将最小的计算添加到作为我们的基准人重新识别模型的初始全球平均汇集。请注意,由于人类语义分析模型通常在更高分辨率的图像上运行,因此如图1所示,重新识别主干使用双线性插值来初始缩小输入图像,然后放大最终**以匹配人类语义中的解析分支。
4. Experiments
4.1. Datasets and Evaluation Measures
为了评估我们提出的方法,我们使用三种公开可用的大规模人员重新识别基准,即Market-1501 [48],CUHK03 [24]和DukeMTMCreID [50]。
除了用于评估的数据集外,我们还利用3DPeS [4],CUHK01 [23],CUHK02 [22],PRID [17],PSDB [41],Shinpuhkan [20]和VIPeR [15]我们的培训数据。除了Market-1501 [48],CUHK03 [24]和DukeMMC-reID [50]之外,这些数据集的训练组合被集合起来创建一个由~111,000个图像组成的大型训练集。我们使用累积匹配特征(CMC)曲线和平均平均精确度(mAP)评估不同人重新识别模型的质量。所有的实验都是在单个查询设置中执行的。
4.2. Training the Networks
为了培训我们的人员重新识别模型,我们汇总了10个不同的人员重新识别基准,详见4.1节,其中总共约11,000个图像的约17,000个身份。基线模型仅在完整图像上运行而不使用语义分割。我们首先使用尺寸为492×164的输入图像对它们进行200K次迭代训练。然后,我们微调每个额外的50K迭代,但更高的输入分辨率748×246。在Market-1501,CUHK03和DukeMMC-reID数据集上分别进行微调。 SPREID的训练是在10个数据集的聚合上完成的,其设置与上述完全相同。其相关实验中的输入图像分辨率设置为512×170。我们在Look into Person(LIP)[14]数据集上训练人类语义分析模型,该数据集由约30,000个具有20个语义标签的图像1组成。然后将不同区域的预测概率组合在一起以创建5个粗略标签2,以便解析人体以供人重新识别。我们的实验表明,即使在严重姿态变化和遮挡的情况下,人类语义分析模型也能够很好地定位各种人体部位。尽管超出了本工作的范围,为了展示我们人类语义解析的质量,我们在表1中显示,在LIP验证集合[14]中,我们的模型胜过了当前的最新技术。图2说明了我们的人类语义分析模型如何分割来自DukeMTMC-reID [50]人员重新识别基准的示例图像。
4.3. Person Re-identification Performance
在本节中,我们从分析基线人员重新识别模型的表现开始。我们将展示输入图像分辨率的效果,对大图像尺寸的微调,重新识别主干的不同选择,以及聚合头之间的权重共享。
我们证明,由于我们简单而精心设计的培训策略,基准模型可以大幅度超越目前的最新技术水平。然后,我们定量说明SPReID在利用人类语义解析进行人员重新识别时的有效性。我们通过与三个大规模基准测试中的最新技术人员重新鉴定结果进行比较来总结本节。
输入图像分辨率的影响:在表2中,我们展示了使用不同输入分辨率来训练网络时,我们的Inception-V3基线模型的定量结果。除此之外,其余设置/参数对于所有型号都是相同的。我们观察到,在所有三个数据集上,对更高分辨率的输入图像进行训练可获得通过mAP或重新识别率测量的更好性能。尽管如我们所预期的那样,当我们考虑rank-10和rank-1,这种差距往往会缩小。当我们合并10个不同的人重新识别数据集时,模型-S,模型-M和模型-L在约〜111K个身份的图像上训练。由于对高分辨率图像的训练在计算上是昂贵的,为了进一步推进性能边界,我们采用经过训练的Model-L并使用748×246的输入图像对其进行微调,这是比Model-L大约1.5倍的输入图像最初是受过训练的。表2显示,这种微调实践,表示为ModelLft,在m-L顶部产生平均4.75%的mAP和1.71%的rank-1。因此,我们确认使用大输入图像大小训练人员重新识别模型的优势。
重新识别主干架构的选择:表3显示了在我们的基准模型中改变重新识别主干架构的效果。 InceptionV3 [37]尽管其架构相当浅,但与ResNet-152 [16]相比具有非常有竞争力的性能,同时性能明显优于ResNet-50 [16],
其深度大致相同。表3还显示,通过对高分辨率图像进行微调而实现的性能增益(参考表2)适用于各种架构选择。在我们的实验中,我们观察到ResNet-152的计算成本比Inception-V3高3倍(由前向+后向时间测量)。因此,鉴于它们相对相似的性能,我们选择了Inception-V3作为我们的主要骨干架构。
SPReID性能:表4比较了我们提出的SPReID与InceptionV3基线人员重新识别的性能。 所有模型都使用第4.2节中详述的设置进行训练。 我们观察到无论是否具有前景变化(分别表示为SPReIDw / fg和SPReIDwo / fg)都优于Inception-V3基线,而它们的组合('2归一化+级联)导致性能进一步提高。 利用SPReID进行人类语义分析可以改善基线重新识别模型:
Market-1501 [48],mAP为6.61%,rank-1为2.58%,CUHK03 [24]为-1.3.3%,DukeMMC-reID [50]为8.91%,mAP为4.22%。 由于Inception-V3基线和SPReID之间唯一的区别在于它们如何聚合最终卷积层的**,我们可以证实我们提出的方法在有效利用人类语义分析以改善人员重新识别方面的优势。
在market1501实验:(效果真的很好!!)