行人重识别 论文学习

《Joint Discriminative and Generative Learning for Person Re-identification》  论文学习

1. 背景

行人重识别(Person Re-identification)也称跨镜追踪,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,主要解决跨镜头跨场景下行人的识别与检索,旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。

由于不同摄像设备之间存在类内差异(intra-class variations),比如相机拍摄角度不同、拍摄场景、光线不同等;同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,因此在行人重识别中的主要目标是设计或学习能稳健地抗类内差异的表达。

目前,在行人重识别中,卷积神经网络逐渐成为主要选择,因为它具有强大的表达能力和学习不变的深入嵌入的能力(ability to learn invariant deep embeddings)。最新的行人重识别方法都广泛地将该任务描述为深度度量学习问题(deep metric learning problems)[[1],[2]]或者使用分类损失作为学习深度嵌入的代理目标[[3],[4]]。为了减少上述提到的类内差异,很多现有方法采用了基于部分匹配或集成来显式对齐和补偿这些变化[[5],[6]]。

另一种增强对输入变化的鲁棒性的方法是让re-id模型在训练的时候潜在地看到这些变化(特别是类内变化)。随着生成对抗网络(GANs)的发展,生成模型已经成为*引入额外的增强数据的最佳选择[[7]]。尽管形式不同,这些方法背后考虑的都是“真实感”和“多样性”。真实感是指生成的图像要有很好的质量来缩小合成场景和生成场景之间的区域差距。多样性是指生成的图像应有足够的多样性来充分覆盖看不见的变化。在此背景下,先前的一些研究探索了无条件GANs和行人姿势条件GANs来生成行人图像[[8],[9]],以改善re-id学习。

2.问题

生成高质量的行人图像有一定难度。主要体现在两个方面:1. 如前面所提到的,生成图像的真实度和多样性不够; 2. 需要额外的标注来辅助生成,比如需要额外的人体骨架或者属性标注等。而由于数据集的标注难度,行人重识别的训练集(如Market和DukeMTMC-reID)数据量一般在2W左右,远小于ImageNet等数据集,容易过拟合的问题也一直没有很好解决。若使用这些低质量的行人生成图像来训练行人重识别模型,会引入与原始数据集之间的差异(bias)

前人的工作中,通常只把所有生成的行人图像看成outlier来正则化网络; 或者额外训练一个生成图像的模型,和原始模型做融合;要么就是完全不用生成的图像去训练。这些方法中的常见问题是,它们的图像生成器通常以独立模块的形式出现,与re-id学习模块(discriminative re-id models)相对独立。因此,生成模块的优化目标可能与re-id任务不一致,从而限制了生成数据的增益。

 

 

3.创新点

该论文提出了一种将区别性学习和生成性学习(discriminative and generative learning)联合的统一网络,DG-Net。这是第一种实现综合识别学习和数据生成的端到端的联合学习框架。

该论文提出的模型包括生成模块(generative module)和嵌入的识别模块(discriminative module),其中生成模块的编码器将每个行人分别编码成外观码(appearance code)和结构码(structure code);识别模块和生成模块共享外观编码器,通过切换外观码和结构码的组合,生成模块可以产生高质量的交叉识别组合图片(cross-id composed images),如图1所示,给定N张图片。通过对外观和结构的重新组合,可以得到N*N张生成图。生成图像输入给行人重识别模型来学习好的行人特征,而行人重识别模型提取出来的特征在线反馈给生成模型来提升生成图像的质量。

所以该算法不需要额外标注(如姿态pose,属性attribute,关键点keypoints等),就能生成高质量行人图像。通过交换提取出的特征,来实现两张行人图像的外表互换。这些外表都是训练集中真实存在的变化,而不是随机噪声。同时,该算法也不需要部分匹配来提升行人重识别的结果。

行人重识别 论文学习

(图1 通过改变外观或结构码在Market-1501上生成图像的例子。每一行和每一列都对应着不同的外观和结构。)

4.算法过程

行人重识别 论文学习
 
(图2 DG-Net的整体框架)

 

上图为DG-Net的整体框架,如图所示,该网络紧密联合了用于图像生成的生成模块和用于行人重识别(re-id)学习的识别模块。​

行人重识别 论文学习
(图3 生成模块的两种图像匹配方式)

 

行人重识别 论文学习

 

 

行人重识别 论文学习

识别模块(Discriminative Module)

识别模块是通过共享外观编码器嵌入到生成模块的。通过切换外观码或结构码,可以获取主要特征学习(primary feature)和细粒度特征挖掘(fine-grained feature),以更好地利用在线生成的图片。由于这两种任务侧重于生成图片的不同方面,所以该方法在外观编码器上为这两种类型的特征学习划分了两个轻量级头文件,如图3所示。

行人重识别 论文学习
(图3 re-id识别模块)

行人重识别 论文学习

行人重识别 论文学习

5. 实验数据评测结果 

生成模型评估:

a.定性评估

首先比较DG-Net的两个变种:去除在线喂养(without online feeding,w/o feed)和身份监督(w/o id),如下图所示,如果没有在线将生成图片输送给外观编码器,模型会产生边缘模糊和不希望出现的纹理。如果去掉身份监督,则图像质量太低以至于无法产生正确的衣服颜色。

行人重识别 论文学习
(图4 对该算法全模型和去除部分模块的比较)

 

再将DG-Net全模型与其它生成方法对比,包括无条件对抗网络(LS-GAN[[10]]),三种开源条件对抗网络(PG2-GAN[[11]],PN-GAN[[12]],FD-GAN[[13]]),结果如图5所示,LSGAN和FD-GAN都容易产生非常模糊的图像,在很大程度上恶化了真实图像。而PG2-GAN和PN-GAN都是以姿势为条件,虽然可以产生相对好一点的结果,但是仍然存在可见的模糊,尤其是在背景。相比较之下,本论文提出的方法是无论是背景还是前景都是最真实且且最接近真实图片的。

行人重识别 论文学习
(图5 用不同方法对Market-1501数据集图片进行生成的对比)

 

为了更好地理解作为行人表示基础的学习后的外观空间,文章在两个外观代码之间进行线性插值,生成如下图所示的对应图像:

行人重识别 论文学习
(图6 在两个外观码间利用线性插值生成图片的例子)

 

这些插值结果验证了外观空间的连续性,表明该模型能够在空间中泛化,而不是简单地记忆琐碎的视觉信息。图7展示的是在三个数据集上测试生成图像的结果,可以发现DG-Net跨越不同的数据集都可以始终如一地生成真实和多样的图像。

行人重识别 论文学习
(图7 在不同数据集中通过交换外观码和结构码生成图像的例子)

 

b.定量评估

采用两种度量方式弗雷切特起始距离(Frechet Inception Distance ,FID[[14]])和结构相似度(Structural SIMilarity ,SSIM[[15]])来分别衡量生成图像的真实性和多样性。如下表所示,为基于数据集Market-1501的真实图像和生成图像的对比,其中,FID是越小表示与真实数据分布之间的距离越小,即真实度越高;SSIM越大代表生成图像之间的相似度低,即多样性高,可以看到,该算法无论是真实性还是多样性,都是五种方法中最好的。

行人重识别 论文学习
(表1 比较FID和SSIM来衡量真实图像和生成图像的真实性和多样)

 

c.局限性

   该方法也存在局限性,该生成模型趋向于学习规则纹理,比如条纹或斑点,而忽略一些少见的图案,比如短袖上的logo,如图8所示。

行人重识别 论文学习
(图8 该方法中生成图片成功和失败的对比)

 

 

判别模型评估(Discreminative Evaluation)

  1. 如表2所示为主要特征和细粒度特征的贡献。其中[email protected]表示首位命中率,mAP为平均精度均值,两者均为衡量Re-id性能的指标。可以看到,结合主要特征和细粒度特征的方法的性能是最好的。
行人重识别 论文学习
表2  基于三个数据集的基线、主要特征、细粒度特征及其组合的对比

如表3,4所示为该论文所提方法与最新方法的比较。对每个数据集,该论文提出的方法都取得最佳效果。此外,DG-Net框架有更好的训练效率: 对于联合的图像生成和识别学习只需要一个训练阶段,而其他方法都需要两个串联的训练阶段,先训练生成模型,然后训练识别模型。

行人重识别 论文学习
表3  基于两个数据集的不同方法性能对比

 

行人重识别 论文学习
表4  基于数据集MSMT17的不同方法性能对比

 

【ps:该论文解读报告其实为 图像识别与机器视觉课程 的作业,word搬到博客上的过程中,一些公式比较麻烦的我就直接截图了,如果需要word/pdf版的可以在此处下载:https://download.csdn.net/download/qq_36999901/12863546

 

参考文献:

[1] Alexander Hermans, Lucas Beyer, and Bastian Leibe. In defense of the triplet loss for person re-identification. arXiv:1703.07737, 2017.1, 2, 5

[[2]] Zhedong Zheng, Liang Zheng, and Yi Yang. A discriminatively learned CNN embedding for person reidentification. TOMM, 2017.1, 2, 8

[[3]] Wei Li, Xiatian Zhu, and Shaogang Gong. Person re-identification by deep joint learning of multi-loss classification. In IJCAI, 2017. 1,2

[[4]] Yifan Sun, Liang Zheng, Yi Yang, Qi Tian, and Shengjin Wang. Beyond part models: Person retrieval with refined part pooling. In ECCV, 2018. 1, 2, 8

[[5]] Yumin Suh, Jingdong Wang, Siyu Tang, Tao Mei, and Kyoung Mu Lee. Part-aligned bilinear representations for person reidentification. In ECCV, 2018. 1, 3, 8

[[6]] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, and Qi Tian.Glad: global-local-alignment descriptor for pedestrian retrieval. In ACM MM, 2017. 1, 3, 8

[[7]] Zhedong Zheng, Liang Zheng, and Yi Yang. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro.

In ICCV, 2017. 2, 3, 4, 5, 8

[[8]] Yixiao Ge, Zhuowan Li, Haiyu Zhao, Guojun Yin, Xiaogang Wang,and Hongsheng Li. FD-GAN: Pose-guided feature distilling GAN for robust person re-identification. In NeurIPS, 2018. 2, 3, 4, 6, 7,

[[9]] Jinxian Liu, Bingbing Ni, Yichao Yan, Peng Zhou, Shuo Cheng, and Jianguo Hu. Pose transferrable person re-identification. In CVPR,2018. 2, 3, 4, 8

[[10]] Xudong Mao, Qing Li, Haoran Xie, Raymond Lau, Zhen Wang, and Stephen Smolley. Least squares generative adversarial networks. In ICCV, 2017. 6, 7

[[11]] Liqian Ma, Xu Jia, Qianru Sun, Bernt Schiele, Tinne Tuytelaars, and Luc Van Gool. Pose guided person image generation. In NeurIPS, 2017. 3, 6, 7

[[12]] Xuelin Qian, Yanwei Fu, Tao Xiang, Wenxuan Wang, Jie Qiu, Yang Wu, Yu-Gang Jiang, and Xiangyang Xue. Pose-normalized image generation for person re-identification. In ECCV, 2018. 2, 3, 4, 5, 6, 7, 8

[[13]] Yixiao Ge, Zhuowan Li, Haiyu Zhao, Guojun Yin, Xiaogang Wang, and Hongsheng Li. FD-GAN: Pose-guided feature distilling GAN for robust person re-identification. In NeurIPS, 2018. 2, 3, 4, 6, 7, 8

[[14]] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. GANs trained by a two time-scale update rule converge to a local Nash equilibrium. In NeurIPS, 2017.7

[[15]] Zhou Wang, Alan Bovik, Hamid Sheikh, and Eero Simoncelli. Image quality assessment: from error visibility to structural similarity. TIP, 2004. 7