近红外跨模态行人重识别(RGB-IR Cross-Modality Re-id)
1. 写在前面
本文是我阅读近红外的跨模态行人重识别(RGB-IR Cross-Modality Re-id)文献的笔记,由于网上对该方面介绍的博客很少,所以这里我记录下阅读文章的一些要点和我自己对这些问题的思考。
2. 综述
1. Beyond Intra-modality Discrepancy: A Comprehensive Survey of Heterogeneous Person Re-identification
2. Near infrared nighttime road pedestrians recognition based on convolutional neural network
- 研究背景:目前学术界对于正常光照下的行人重识别的研究以达到一个不错的效果,但是在实际场景下的数据并不仅限于正常光照的数据,所以提出了一个在未来更具有研究价值的行人重识别问题——Heterogeneous person reidentification
- 研究现状:目前已有的跨模态行人重识别大致有如下四个方向:低分辨、近红外、素描和文本,本文主要记录近红外的部分
- 近红外跨模态的优势:
- 弱光or黑暗条件下,普通re-id效果很差
- 大多数监控摄像头可支持近红外图像和彩色图片
- 近红外图像不受可见光的影响
- 为什么采用近红外图片?
相比其他方式,近红外图像传感器,采集样本分辨高,帧率快,成本低
3. 数据集
SYSU-MM01
-
数据集介绍:
SYSU-MM01 包括了6个摄像机采集的数据,其中包括2个IR摄像机和4个RGB摄像机。 -
评估
gallery:RGB
query:IR- 全部场景搜索
- gallery:RGB(cam1、cam2、cam4、cam5)
query:IR(cam3、cam6)
- gallery:RGB(cam1、cam2、cam4、cam5)
- 室内场景搜索
- gallery:RGB(cam1、cam2)
query:IR(cam3)
- gallery:RGB(cam1、cam2)
- 全部场景搜索
4. 相关方法介绍
对于近红外的跨模态的行人重识别问题,其根本目的是解决两种模态之间的gap,大致解决思路为以下两种:
- 使用参数共享的卷积网络,学习到两种模态数据之间的共享特征
- 使用GAN网络,通过训练生成器和判别器去学习模态之间的关联
- 简介:
当前存在多种构造的单双流网络,作者对其分析后,对其输入补了一个全零层,实现了单双流网络的合并,其中,虚线对应的节点参数为0,不同的节点对应不同的模态数据会选择性"失活",并且存在始终**的节点,如绿色节点所示,学习两种模态的共有特征。 - 总结:
结构简单明了,通过一个类似"开关"的数据输入结构解决了不同模态的数据输入问题,但是并未将信息全部利用。
2. Cross-Modality Person Re-Identification with Generative Adversarial Training
- 简介:
本文使用GAN的方法,在特征级别上缩小RGB和IR之间的gap,同时使用triplet loss 和Id loss。 - 特点:
- 对于两种模态下的三元损失函数的构建:
- 混淆不同模态下数据的特征,让网络无法分辨出特征来自同一域或者不同域:
3. Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification
- 简介:
使用双流网络(共享后半部分的参数)提取特征,之后进行特征学习和度量学习 - Feature Learning:
- Id Loss:CrossEntropy Loss
- Contrastive Loss:三元损失函数,
- Metric Learing:将两个不同空间的模态的数据转化到同一个空间,为了更有效对特征的学习
- 总结:
损失函数采用常规设计,但HCML目的是将不同模态数据的特征转化到同一个空间进行学习,思路清晰。