跨模态行人重识别-阅读笔记1《HPILN: A feature learning framework for cross modality person re-identification》
一.HPILN论文链接
链接1:(最终版已录用)
链接2:(arxiv非最终版)
二.跨模态行人重识别简介
现有的行人重识别研究大部分集中于RGB图像的研究,然而RGB摄像头在黑暗处不能获取清晰图像,现有的摄像头往往集成了RGB摄像头和红外摄像头(IR Camera)的功能于一身,在黑暗处使用红外摄像头获取图像。存在这种情况:嫌疑人在黑暗与亮光处穿行,从而被RGB摄像头和红外摄像头拍摄到,则产生这样的需求:需要判断RGB摄像头拍摄到的行人和红外摄像头拍摄到的行人是否是同一人。2017年,郑伟诗团队公开了首个跨模态行人重识别数据集(SYSU-MM01),以及对应的benchmark。
RGB-IR ReID领域,两年来出现了许多优秀的论文:
- zero-padding:《RGB-Infrared Cross-Modality Person Re-Identifification》
- BDTR:《Visible thermal person re-identification via dual-constrained top-ranking》
- eBDTR:《Bi-directional center-constrained top ranking for visible thermal person re-identification》
- D2RL:《Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identifification》
三.HPILN介绍
3.1 创新点
- 提出了一个端对端的特征学习框架,在RGB-IR Re-ID数据集SYSU-MM01上达到了最高的精度。
- 首次将RGB-RGB Re-ID神经网络迁移到RGB-IR Re-ID任务中,分析并验证了可行性。
- 设计了一种新的损失函数:hard pentaplet loss,它可以有效处理RGB-IR Re-ID中的跨模态变化和内模态变化。此外,hard pentaplet loss和identity loss相结合可达到更高的精度。
3.2 框架图
3.2.1 训练batch
每次训练输入2PK张图片,其中P代表在训练集中随机挑选P个行人,每个行人挑选K张红外图片和K张RGB图片。
3.2.2 Feature Extractor模块
该模块的功能是使用CNN进行特征提取,而这里的CNN是直接采用现有的单模态行人重识别网络(可以看出,作者是个实用主义者=lazy boy)。动机有两点,一是因为现有的跨模态reid用的大多是双通道方法(一种模态一个通道),双通道网络很难实现完全的hard mining,因为输入的图片是成对的(即已经固定了两张图片,只能mining另一张hard图片),因此特征提取部分不使用双通道结构,即在特征提取部分不区分模态,所以这部分的处理与单模态reid是一样的;二是现有的单模态reid网络已经针对行人特征做了很多设计,运用在跨模态reid中也是适用的。作者在文章中尝试了五种单模态reid网络(Res-Mid,MGN,PCB,MLFN,BFE),效果都挺不错的。需要注意的是,并不是所有的单模态reid network用在该框架中都适用于RGB-IR Re-ID(在实验部分有讨论)。
3.3.3Feature Embedding 模块
该模块是进行困难采样。具体地,对每张训练图片,在训练batch中(2PK张图片)找到全局最难正样本,全局最难负样本,跨模态最难正样本,跨模态最难负样本。
3.3.4 Feature Learning 模块
该模块由hard pentaplet loss和identity loss组成(HPI loss)。
hard pentaplet loss由困难全局三元组(hard global triplet)和困难跨模态三元组(hard cross-modality triplet )损失组成:
- hard global triplet loss:
- hard cross-modality triplet loss
identity loss用的是softmax loss。
四.实验
4.1 对比试验
4.2 特征可视化实验
END