跨模态ReID方向:概念,具体文献,数据集,总结等(长期更新)

ReID:
现在计算机视觉研究的热门方向,主要解决跨摄像头跨场景下行人的识别与检索。该技术能够根据行人的穿着、体态、发型等信息认知行人,与人脸识别结合能够适用于更多新的应用场景,将人工智能的认知水平提高到一个新阶段。
Cross-module ReID
Re-ID是视频监控中的一个重要问题,其目的是在摄像机视点上匹配行人的即时信息,目前,大多应用于RGB图像中,但例如在黑暗环境中,这样是远远不够的,在许多视觉系统中,红外(Infrared (IR))成像是必不可少的。为此,需要将RGB图像与红外图像进行匹配,而红外图像是异构的,具有非常不同的视觉特征。对于person Re-ID来说,这是一个非常具有挑战性的跨模态问题,在下图可以看出,RGB图像和IR图像还是有很大的差异的。
目前已有的跨模态行人重识别大致有如下四个方向:低分辨、近红外、素描和文本,本文主要记录近红外的部分,而选用近红外进行研究,主要是因为相比其他方式,近红外图像传感器,采集样本分辨高,帧率快,成本低。
跨模态ReID方向:概念,具体文献,数据集,总结等(长期更新)
RGB图像和IR图像有三个本质性区别:
第一,RGB图像有三个包含可见光颜色信息的通道,而IR图像有一个包含非可见光信息的通道,因此,它们可以被视为异构数据。
第二,从成像原理上看,RGB和IR图像的波长范围不同。
第三,由于视角变化、姿态变化和曝光问题导致基于rgb-based的ReID存在较大的类内差异,也给RGB-IR的交叉模态ReID带来了一定的困难:
跨模态ReID方向:概念,具体文献,数据集,总结等(长期更新)
跨模态的ReID是通过在RGB图像及红外图像(目前仅有RGB-T任务)中识别与检索出人物的身份(ID)信息。其任务是主要分两个子任务,一个是减少模态间的差异,通过在两个不同模态中寻找出具有同一个身份的人,另一个是单模态ReID任务,即在RGB图像或者红外图像内部通过对身份的约束找到同一个身份的人。
论文(长期更新)
1.Person Recognition System Based on a Combination of Body Images from Visible Light and Thermal Cameras(2017 sensors)
2.RGB-Infrared Cross-Modality Person Re-Identification(2017 ICCV)
3.Cross-Modality Person Re-Identification with Generative Adversarial Training(2018 IJCAI)
4.Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification(2019 CVPR)
5.HSME Hypersphere Manifold Embedding for Visible Thermal Person Re-Identification(2019 AAAI)
6.Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification(2018 AAAI)
7.Enhancing the Discriminative Feature Learning for Visible-Thermal Cross-Modality Person(2019 ArXiv)
8.RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment(2019 ICCV)
9.HPILN a feature learning framework for cross-modality person re-identification(2019 IET)
10.Person Re-Identification Between Visible and Thermal Camera Images Based on Deep Residual CNN Using Single Input(2019 IEEE Access)
11.Hetero-Center Loss for Cross-Modality Person Re-Identification(2019 ArXiv)
12.Attend to the Difference Cross-Modality Person Re-identification via Contrastive Correlation(2020 AAAI)
13.Visible thermal person re-identification via dual-constrained top-ranking(2018 IJCAI)
14.Bi-Directional Center-Constrained Top-Ranking for Visible Thermal Person Re-Identification(2020 TIFS)
15.Learning Modality-Specific Representations for Visible-Infrared Person Re-Identification(2019 TIP)
16.SDL Spectrum-Disentangled Representation Learning for Visible-Infrared Person Re-identification(2019 TCSVT)
17.Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification(2020 AAAI)
18.Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification(2019 CVPR)
19.Person Recognition System Based on a Combination of Body Images from Visible Light and Thermal Cameras(2020 CVPR)
数据集(长期更新)
CM ReID常用数据集:RegDB、 SYSU-MM01、DBPerson-Recog-DB1
RegDB:共有412个任务ID。每个人有10张可见光图像和10张远红外图像,一半用于训练,一半用于测试。
SYSU-MM01(最常用):491和人物ID,296个用于训练,99个用于验证,96个用于测试,287,628 RGB images and 15,792 IR images。
DBPerson-Recog-DB1:412个ID(正面,背面,侧面),每个人平均有10张100×110×3像素大小的可见光图像和10张110×125×1像素大小的热图像,共计8240张。

Cross-Module ReID loss

CM ReID常用ranking loss通常使用基于度量学习的损失函数,如triplet loss及其变体HT loss、pentaplet loss等。identity loss常用Cross entropy loss及其变体或softmax loss及其变体等。其中,identity loss是有明确的Ground-truth,而ranking loss通没有。
triplet的作用是明确学到的特征可分,而softmax倾向于辨别性小、可分性差的特征。
下图截取的其中一篇论文的框架,可以看到,ReID论文中,都是在FC2进行权重共享,FC2层是feature map,输出的是各自的特征,然后进行L2正则化,并在这一层通过Ranking loss进行学习,然后输出给FC3层,FC3层其实是分类层,输出的是每一个人物ID类别的概率,在这一层通过identity loss进行学习。
跨模态ReID方向:概念,具体文献,数据集,总结等(长期更新)
其中,low level代表的是点线面颜色的特征,不同模态的差异较大;
high level代表的是语义特征,抽象特征,如鼻子嘴巴等,适应性强,是对不同图片的特征经过汇总的结果,是两个模态的共同特征。
评价指标
rank-n
搜索结果中靠前为正确的概率。
例如: lable为m1,在100个样本中搜索。

如果识别结果是m1、m2、m3、m4、m5……,则此时rank-1的正确率为100%;rank-2的正确率也为100%;rank-5的正确率也为100%;
如果识别结果是m2、m1、m3、m4、m5……,则此时rank-1的正确率为0%;rank-2的正确率为100%;rank-5的正确率也为100%;
如果识别结果是m2、m3、m4、m5、m1……,则此时rank-1的正确率为0%;rank-2的正确率为0%;rank-5的正确率为100%

准确率
预测结果中,究竟有多少是真的正?(找出来的对的比例)
P=TP/TP+F
召回率
所有正样本中,你究竟预测对了多少?(找回来了几个)
R=TP/TP+FN

mAP
mAP的全称是mean average precision,用于衡量算法的搜索能力。
跨模态ReID方向:概念,具体文献,数据集,总结等(长期更新)
论文整体思路
对于近红外的跨模态的行人重识别问题,其根本目的是解决两种模态之间的gap,除了两篇可以算作综述外,大致解决思路为以下两种:
1.通过CNN特征提取,使用参数共享的卷积网络,学习到两种模态数据之间的共享特征,进而减小跨模态及不同类别(ID)的距离。(后简称CNN体征提取法)
2.使用GAN网络,通过训练生成器和判别器去学习模态之间的关联
具体文章算法及思路概括
按照上面的论文不同的思路进行概括,分为综述、CNN体征提取法、GAN网络三类,同一类别论文一起看有助于更深的理解论文间的共同点和不同点,理解更深,且加快阅读速度,具体见置顶的文献:
1.综述:https://blog.****.net/qq_41967539/article/details/104695511
2.CNN体征提取法:https://blog.****.net/qq_41967539/article/details/104702998
3.GAN网络:https://blog.****.net/qq_41967539/article/details/104703098