【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

现有的大多数工作都是基于监督学习,而监督学习需要大量标注数据,严重限制了它的可拓展性。因而可迁移跨数据集的无监督模型被提出,且数据完全不需要标注。本文开发了一种基于非对称多任务字典学习的新颖的无监督跨数据集迁移学习方法。 它与现有方法的显着不同之处在于,它可以利用在其他位置收集的标记数据集,而无需在目标数据集上进行标记。 该模型在现实世界中具有巨大的潜力,高可扩展性,低运行成本和高匹配精度。

论文一览:

【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

痛点

本作作为ReID无监督跨域学习的事实上的开山之作,以极高的理论水平阐述了现在ReID这个方向的痛点:

现有的大多数工作都是基于监督学习,而监督学习需要大量标注数据,严重限制了它的可拓展性。具体说来原因主要有:

1、请专业标注者用人眼分辨几百张图片去标注数据这事本身,就是一件很困难的事;

2、假设在地铁部署一个中等规模的摄像机网络阵列,可以轻轻松架设一百多个摄像机,产生上千个的摄像机对(排列组合),根据现在监督学习数据集的样式,每一个摄像机场景通常就需要几百对标注好的图片对来训练,这么多摄像机,你可以想象标记的工作量是天文数字。

因此基于监督学习的ReID模型可拓展性很差。而其中一个解决办法就是把能够轻松获得的无标注数据利用起来。

此外文章还谈到,在当时之前唯一一个做过无监督学习的文章是Cross-Domain Person Reidentification Using Domain Adaptation Ranking SVMs[2],但是这篇文章中使用的数据并不是完全没标记,而是标记了目标数据集的负样本对,所以严格说这不是无监督而是弱监督学习。因而真正做无监督的实际上就是本作了。

模型

文章提出了不对称多任务学习方法,该方法基于字典学习,也就是说,假设一个人的外貌可以表示为潜在因子的线性组合,每个潜在因子分别对应一个字典原子。
假设某些原子与视图/数据集无关,因此在不同的数据集/任务之间共享,而其他原子对于每个数据集都是唯一的,并且对于新的未标记目标数据集中的Re-ID可能有用或无效。这导致使用所有数据集共同学习三种字典。

另外,为了使学习词典偏向目标数据集,分别对源数据集和目标数据集引入了不同的字典分解,以反映多任务学习模型不对称的事实,即多任务联合学习仅旨在受益目标任务。

本文仅关注目标任务,因此多任务模型是不对称的,并且偏向目标任务。 形式上,假设【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification
是一个特征矩阵,每列xt,i对应于一个M维特征向量,该向量代表第i个人在数据集t中的出现(t = 1,…,T)包括 Nt样本。

假设任务T是目标任务,其他任务是源任务。 对于每个任务/数据集,采用字典学习模型,目标是使用所有数据集{X1,…,XT}学习共享字典【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification
。 使用此字典,每个M维特征向量(无论来自哪个视图)都被投影到由k个字典原子(D列)跨越的较低k维子空间中,以便可以匹配相应的系数(代码向量) 子空间中的余弦距离。 这个想法是,子空间的每个原子或维度对应于一个潜在的外观属性,该属性对于相机视图的变化是不变的,因此对于跨视图匹配很有用。

在多任务字典学习模型中,有必要将字典分解为两部分:在任务之间共享的部分,它捕获对于任何视图更改均不变的潜在属性,而任务特定的部分则捕获唯一的数据集。 人类外观的各个方面。

本文的无监督多任务字典学习(UMDL)模型中引入了三种类型的字典:(1)任务共享字典Ds,用于对数据集/视图不变的潜在属性进行编码,并由所有任务共享 (2) 目标任务独有的词典 T是视图不变的,以及(3)特定于任务的残差字典Dr t(t = 1,…,T)是特定于任务的,用于编码Ds(源任务)或Ds和Du T(目标任务)无法建模的要素的剩余部分。 显然,源任务和目标任务的处理方式有所不同:对于目标任务,需要额外的第三本词典Du T来说明目标视图特有的视图不变但数据集不变的潜在属性。

文章提出的UMDL方法可以阐述如下:
【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

构造的拉普拉斯矩阵如下:
【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

无监督多任务学习方法可以阐述如下:
【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

实验

实验在当时的benchmark数据集中与其他方法进行了对比:
【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

AdaRSVM是当时现存的唯一无监督方法(严格上说是弱监督)

【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

若采用半监督学习策略
【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

分离试验

【ReID】【Skimming】Unsupervised Cross-Dataset Transfer Learning for Person Re-identification

写作


However, compared to supervised learning approaches, the matching performance of unsupervised models are typically much weaker, rendering them less effective. The reason is that without labelled matching pairs across camera views, existing unsupervised models are unable to learn what makes a person recognisable under severe appearance changes.

写得真好o( ̄▽ ̄)d


Note that a number of works [41, 40, 32] have exploited domain adaptation for cross-view classification or verification of faces/actions, based on dictionary learning and/or sparse representation models. They are thus related to our work. But there are significant differences. In particular, some of them [41, 40] are supervised and require labelled training data from the target domains…Nevertheless they tackle a within-dataset cross-camera view domain adaptation problem. This is fundamentally different to our cross-dataset transfer learning problem: the domain change is much greater across datasets,and importantly the images from cross-domain/view but same dataset contain people of the same identities,

现在大多数所谓的跨域是指在同一个数据集的不同拍摄镜头视角的“跨域”,这使得虽然摄像机视角会变化,但是他们都会出现同样的行人。而本文所说的跨域是真正的跨不同数据集的场景。不仅domain的变化更大,而且很重要的一点是不同摄像头下不存在同一个行人。这个事作者不点出我也没想到。

参考文献

[1] Peng P, Xiang T, Wang Y, et al. Unsupervised cross-dataset transfer learning for person re-identification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1306-1315…

[2] Ma A J, Li J, Yuen P C, et al. Cross-domain person reidentification using domain adaptation ranking svms[J]. IEEE transactions on image processing, 2015, 24(5): 1599-1613.