【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification


Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
无监督RE-ID领域中基于块的判别特征学习
注:限于作者水平,本笔记难免存在不妥之处,欢迎批评指正

摘要

提议一个基于块的无监督学习框架来从块之间而非整体图片学习判别特征。
基于块的学习通过影响块之间的相似度来学习一个判别模型。
具体地,发展一个PatchNet来从特征映射中挑选块并从这些块中学习判别特征。
设计了一个图片级的特征学习损失来影响相同图片的所有块来作为PatchNet的一个图片级的指导。

1.简介

现有的无监督方法要从有标签源域中迁移知识。这些方法局限于图像级别,然而不同数据集图片间的差异是十分巨大的,因此仍有令人不佳的效果。
尽管无标签数据集不具备标签信息,本文发现一个有趣的现象,当两张图片相似时,他们的块也很可能相似。基于这一现象,更容易概括出一个基于块的判别特征学习模型并且在不同数据集间学习判别块特征。

开发一个基于块的无监督学习框架PAUL,分以下三步学习无标签数据集判别块特征。
设计一个判别块特征学习网络PatchNet从特征映射中挑选块并为每一块学习判别特征。
在PatchNet中提议一个基于块的判别特征学习损失PEDAL来通过将具有相似块的特征拉近而将不相似块推远去学习无标签数据集块特征以指导PatchNet。
通过为每张图片进行随机图片变换生成代理正样本,通过小批量循环排列挖掘硬负样以组成一个三元组,开发一个图像级块特征学习损失IPFL来影响相同图片的所有块特征以提供图像级指导。
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification

2.相关工作

有监督RE-ID

大多数现有RE-ID方法使用有监督学习并且基于学习距离矩阵或子空间,学习视野不变判别特征或深度学习。有依赖大量有标签数据的局限性。
一些基于部分的模型用以解决行人图像的不对齐或学习局部特征。这些方法证实了局部特征学习对于未知身份更易概括且高效。
尽管预训练基于部分的模型可行,这些方法缺乏在无标签数据集上的高效指导。

无监督RE-ID

尽管手工外观特征可以被直接应用到无监督RE-ID,因为设计一个视野不变特征往往具有极大挑战性二效果通常不佳。
为了实现视野不变,最近的一些方法意图改善特征或者在无标签数据集挖掘潜在标签。
特别地,Yu et al. 提议一个基于非对称K均值聚类非对称距离矩阵学习来实现视野不变。然而,通过聚类获得的伪标签可能会含有噪声,因为这种方法可能会给不同身份的相似图片分配相同伪标签,使得难以区分相似的行人。
近期,通过跨域迁移学习的无监督RE-ID提议使用有标签数据集改善目标域的模型效果。
特别地,Wei et al. 提议使用GAN填补域间缺口。
Wang et al. 提议通过从有标签数据集学习的属性来分享源域知识,然后将其迁移到无标签数据集。描述局部警示信息的属性标签某种程度上相似于图像块的外观信息,但本文方法无需额外属性标签。
Bak et al. 提议一个利用人造数据的三步域自适应技术。然而图像适应过程使得其难以在一个新无标签数据集生成模型。进一步讲,由于不同数据集行人图像的差异巨大,这些迁移学习很难生成模型。比较之下,本文方法在块级学习判别特征,更直接、更易概括。

3.方法

3.1PAUL总览

【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
展示一个新颖的基于块的判别特征学习框架来利用不同数据集的常见块并且在无标签数据集上挖掘判别特征。
框架包括一个旨在学习可概括和判别块特征的PatchNet和两个在无标签数据集为PatchNet提供指导的附加损失。
PatchNet主要由一个CNN骨架和用于从特征映射中生成不同块的块生成网络PGN。网络分成几个分支,每一分支添加了一个平均池化层和一个卷积层。初始时PatchNet在另一个有标签数据集进行预训练以影响普遍图像块的共享外观知识。PGN不是本文主要贡献,而是本文方法的一个基础。
为了给PatchNet提供高效的指导使其在无标签数据集学习更多判别块特征,提议一个基于块的判别特征学习损失PEDAL来拉近相似块而推远不相似块。
为了影响相同图片所有块特征以提供图像级指导,开发一个图像级块特征学习损失IPFL。因为在无标签数据集没有可用的标签信息来组成一个三元组,本文连接相同图片的所有块通过小批量循环排序来挖掘硬负样本并且为每张图片生成代理正样本。

3.2块生成网络

从一个相对小尺度的特征映射中而非图像中取样块,这样更加高效并且降低了CNN的计算和复杂度。
PGN可被拆分为三部分,分别是定位网络LN、块取样网格以及取样器。
首先,LN选取特征映射并且取参于一系列仿射变换参数Θ来预测M个空间定位。
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
LN由一个卷积层和两个全连接层组成。初始化LN最后一个全连接层的偏置使得块取样自不同的空间区域并且在初始阶段捕捉行人图像的不同线索。
然后,每个预测变换参数θm被用来计算一个由一些在输入特征映射中取样以形成块的点组成的取样网格。
最后对每张图片取样得到M个块。

3.3基于块的判别特征学习

【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
有监督学习中,让相同类的特征彼此靠近而让不同类间彼此远离,从而使得特征具有更大判别性。
本文则是将相似块在特征空间中拉近而将不相似块远离。
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification代表在小批量中第i张图片的第m个块的特征
将每个无标签的块与其他图片中第m个块做比较以发现在基于小批量优化深度学习中难以处理的视觉相似的块。
维持一个块特征记忆库(memory bank)来存储这些块特征。
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
N为训练图片的数量
对于每个wmj,在无标签数据集训练时进行更新。
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
t是训练的阶段(epoch),l是wmj的更新速率,xmj,t是最新的块特征。
对于每个xmi,通过计算与【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification之间的【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification来获得k个最近块的集合【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
PEDAL计算公式如下:
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
s是尺度大小
最小化Lmc促使模型将相似块Kmi在特征空间靠近xmi而使不相似块【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification远离xmi。
模型可以学习如何映射那些视觉相似块更靠近来为这些相似块挖掘更多视觉一致线索,因此这些块的特征将会更有判别性。
讨论
相较于拉近相似块,拉近相似行人图像将会模糊行人图像的身份信息,使得其区分不同身份图片低效。相比之下,如若拉近相似块会遇到和拉近相似行人图像相似的问题,使得这些块难以区分。但是身份信息并非是简单依靠块特征编码,更重要的是块之间的结合。这意味着即使不同身份的一些块被彼此拉近,通过其他块仍能将其推远。这种方法类似于使用多个属性来帮助识别行人。

3.4图像级块特征学习

开发一个图像级损失来进一步探索能够在判别块特征辅助下挖掘的图像级潜在判别信息。
在整个图片的特征空间内最小化类内差距同时最大化类间差距。
介绍一个循环排序在小批量挖掘硬负样本,通过一系列图像变换生成代理正样本,开发一个基于三元组的损失函数。
在小批量挖掘硬负样本
如果在小批量存在相同身份的两张图片样本,它们很可能处于彼此的手动最近邻里(manually nearest neighbors)。相反,如果两个样本在小批量互相不处于手动邻居中,这样的不一致性表明它们可能是不同的身份。
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
硬负对对于学习判别特征而言更为高效,仅考虑最困难负样本候选xj,称为ni。
讨论
当从包含大量图片与身份的数据集中随机变换一些图片,在小批量有相同身份图片的可能性非常小,甚至它们是手动邻居也是如此。但这不代表不可能出现这种情况。因此需要一个能具备高可信度的判定硬负对的方法。
循环排序便提供了这样一个方法遵循简单但合理的准则无监督地挖掘硬负对,在无监督潜在标签信息发现中起到重要作用。
代理正样本
定义一组随机变换来生成代理正样本,包括裁剪、缩放、旋转、亮化、对比以及饱和。为每一张真实样本生成一个代理正样本。
在每个训练阶段为每张锚点图片随机生成代理正样本来形成一个正对。
IPFL定义如下:
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
m是IPFL的差额,pi是一个代理正样本特征。

3.5在无标签数据集上训练PatchNet

通过一系列随机变换为每张图片生成一个代理正样本,这些样本仅用于计算IPFL。
PGN基于特征映射为每张图片生成M个块。
为每个块计算PEDAL,为每个三元组计算IPFL。
模型在小批量对于每张图片的总损失函数如下:
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
λ 为PEDAL的权重。

4.实验和分析

4.2实施细节

选择ResNet-50作为CNN骨架模型,在ImageNet上预训练。
去除最后全连接层并且设置最后的残差块步长为1。
每个分支的输出特征维度为256。
初始化PGN使得特征映射被分为M个相同大小的水平线。
对于PEDAL,仅考虑前十最近的其他图片块并且设置更新速率l为0.1。
对于Duke,尺度大小s设置为10,对于Market为30,以确保模型收敛。
对于IPFL,r设置为3,m设置为2。
使用MSMT17预训练PatchNet。
在无标签数据集训练时,图片从训练集随机取样并调整大小为384X128。
每个小批量由40个真实样本和40个仅用于计算IPFL的代理正样本组成。
在无标签数据集上训练模型60次。
在训练中将相同图片块特征合并在一起来计算成对距离。
用于生成代理正样本的随机变换如下:
原图70%-95%的裁剪
最多10度的随机旋转
80-120%的对比、饱和、亮化

4.3与最新方法的比较

【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
本文方法在块级别学习在不同数据集更易概括的判别特征,在PEDAL和IPFL的指导下,PatchNet可快捷地在无标签数据集上训练。

4.4消融研究

【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
PEDAL的高效性
IPFL的高效性
PEDAL和IPFL结合的高效性

4.5进一步分析

可视化
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identificationPGN的分析
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
PEDAL参数k、IPFL参数r的影响
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
PEDAL权重????的影响
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
方法的广泛性
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
预训练集的分析
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification
【论文笔记】Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification

5.总结

基于块的无监督学习框架PAUL
patch-based unsupervised learning

判别块特征学习网络PatchNet
patch discriminative feature learning network

基于块的判别特征学习损失PEDAL
patch-based discriminative feature learning loss

图像级块特征学习损失IPFL
image-level patch feature learning loss