跨模态行人重识别:Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality Person ReID
Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality Person Re-Identification
目录
Abstract
1)由于RGB-红外存在较大的模态差异,本文着重于提取不同模态的共享跨光谱特征。
2)提出了一种新颖的多光谱图像生成方法,并利用生成的样本来帮助网络找到区分性信息。
3)提出双子空间匹配策略,以解决由于模态不同导致的同一人不同模态图像差异大于不同人之间的差异问题。
4)利用单流网络,结合两种方法。在训练的过程中,提出了一种动态难光谱挖掘方法,可以根据当前模型学习状态自动从难光谱中挖掘难样本。该网络称为跨光谱双子空间匹配模型(CDP)。
1、Introduction
1)在本文中,利用了每个输入通道的信息,采用跨光谱策略来发现所有模态的共享特征。
2)SYSU-MM01包含RGB和近红外图像,而RegDB则包含RGB和远红外图像。由于波长较短,SYSUU-MM01数据集中的近红外图像具有清晰的边缘和清晰的背景。相较之下,RegDB中远红外图像边缘模糊,丢失了许多颜色信息。强大的RGB-红外方法需要同时处理两种情况。本文提出的方法都获得了很好的效果,证明了方法的效率和通用性。
3)利用GAN生成对应模态图像的方法,训练生成器和判别器会使网络更加复杂,要做到平衡生成器和判别器并非易事。相反,本文提出的方法使用了一种以端到端的方式训练更简单的网络结构。
4)对于模态差异,本文提出了一种**跨光谱图像生成方式(CSIG)**方法来生成多光谱图像,包括蓝色光谱,黄色光谱,红色光谱和灰色光谱。网络使用多光谱图像进行训练,迫使网络学习提取跨光谱共享特征,以正确区分所有光谱。
5)统一对多光谱信息进行采样不是最佳选择,提出了动态难光谱挖掘策略,可以根据当前模型状态自动评估不同光谱的难度,并为较难的光谱分配更大的采样概率。
2 、Our Approach
2.1、Cross-spectrum Image Generation(跨光谱图像生成)
RGB-红外跨模态行人重识别的核心挑战是:具有相同外观的同一个行人将在RGB摄像机和红外摄像机下拍摄截然不同的图像,我们将这种由不同模态带来的差异称之为模态差异。
模态差异是由光谱差异引起的,RGB摄像机捕获RGB光谱中行人特征,而红外摄像机则捕获红外光谱中行人特征。从一种模态到另一种模态,某些信息不可逆地丢失且无法恢复。如下图所示,红外图像中缺少RGB图像中的颜色信息和T恤上的条纹图案。基于此观察,我们将注意力集中在提取所有模态的共享特征,即跨模态共享特征。
为了实现此目标,我们可以将RGB图像和红外图像直接馈入到单流网络中,无论输入图像是哪种形式存在,都可以让网络学会自动提取统一的特征。但是没有明确的约束,网络性能不佳。取而代之,我们提出了一种新颖的能生成多光谱图像的跨光谱图像生成方法。给定RGB图像,从相应的颜色通道中提取像素生成红色光谱,绿色光谱和蓝色光谱图像。此外,我们将原始RGB图像的灰度图像添加进来,以进一步增加模态数量。对于RGB原始图像输入C,我们将生成具有红色光谱R,绿色光谱G,蓝色光谱B和相应灰度图像X,生成方法表示为:
其中f是跨光谱图像生成函数。下图显示了一些示例,可以观察到,在不同光谱中生成的四种图像显示出各种各样的外观,并且类似于红外摄像机捕获的外观。
在训练过程中引入更多模态可以为网络添加额外的监督信号,以发现所有模态中存在的区分性共享特征,即跨光谱共享特征,从而导致更好地特征嵌入。
为了保持一致性,对于红外图像,我们仅应用具有固定抖动比δ的随机亮度抖动增强。
2.2、Dual-subspace Pairing Strategy(双子空间配对策略)
RGB-红外跨模态行人重识别的另一个挑战是:跨模态摄像机捕获的同一行人之间距离通常大于同一模态摄像机捕获的不同行人之间距离。
在训练过程中,网络需要学习将距离较小的样本分为不同类,而距离较大的样本分为同一类,这会导致网路性能下降。为了解决这个问题,提出了双子空间配对策略,如下图所示。使用跨光谱图像生成方式来生成配对的图像,然后将它们一起馈入到网络中。
通过跨光谱图像生成,原始图像和生成图像之间外观应完全相同。因此可以忽略外观差异。在这种双子空间配对方式中,网络可以专注于学习消除两个子空间之间的跨模态差异并提取判别性共享特征。具体来说,对于每个输入原始图像,我们从所有生成图像(R,G,B,X)(对于RGB图像)和随机亮度抖动图像(对于红外图像)中随机选择一个作为配对图像。
2.3、Our One-Stream Network(单流网络)
设计了一种单流卷积神经网络。首先对于所有输入的原始图像,应用跨光谱图像生成方法来创建耦合的双子空间。但是生成的图像仅具有一个通道,而RGB图像具有三个颜色通道,因此使用通道拓展策略,通过复制将单通道扩展为三通道。如下图所示,单流网络可以使用三种可能的输入类型。
a)深度零填充方法将RGB图像转换为灰度图像,然后为灰度图像和红外图像添加零通道,从而作为两通道输入。对于零填充的灰度通道和红外通道,某些节点将不断输出零,这意味着他们是特定于域的。因此,灰度子网络和红外子网络可以分别处理每个模态,并且共享节点可以为这两种模态提取共享特征。但是,这种做法浪费了零通道的计算成本,并且没有显式的约束来挖掘跨模态的共享特征。
b)我们还可以简单地将三通道输入作为RGB图像,并扩展红外图像的通道数。这样,节点需要学习从RGB图像和红外图像中提取特征。
c)使用跨光谱图像生成方法,与传统原始图像输入相比,第1层中节点的每个权重都需要处理所有的红色,绿色,蓝色,灰色和红外通道信息。迫使网络发现所有光谱中存在的具有区分性的跨光谱特征。
单流网络采用ResNet50作为Backbone,损失函数为交叉熵和三元组。
2.4、Dynamic Hard Spectrum Mining(动态难光谱挖掘)
在跨光谱图像生成过程中,每个光谱均被平等对待,并且灰色,蓝色,红色,黄色具有相同的选择概率,这并不是最佳选择。在训练过程中,模型学习从每个光谱中提取跨光谱的区分性特征。某些光谱可以快速学习,而其他难光谱则难以学习。很难手动确定哪个光谱容易学习或难以学习,并且难度级别可能因模型结构或参数设置的不同而有所区别。因此,我们提出了一种动态难光谱挖掘(DHSM)策略,以自动评估不同光谱的难度级别,并为较难的光谱分配更大的采样概率。
这样,模型一旦学会了处理特定的光谱,采样概率就会降低,并且后续从该光谱中获得训练数据也会更少。与传统的样本级难挖掘不同(如Triplet Hard)不同,新的光谱级难挖掘方法可以在训练过程中挖掘难光谱。
给定训练中第i个输入的跨光谱生成的图像,当前预测的分类概率为pi,S(pi)是该样本的光谱,在本文中可能是R,G,B,X。一个训练epoch内,特定光谱的置信度可以定义如下:
其中,Nt为最后一个训练epoch中生成的图像总数。|·|表示样本数。那么,在第t个epoch内每个光谱的采样概率计算为:
如上公式所示,如果模型预测特定光谱生成图像具有高目标概率Rq,那么新的采样概率Pqt小,意味着下一个epoch该光谱生成图像变少。通过归一化操作,总概率为
为了进一步利用历史信息,并使采样概率保持平稳变化,最终采样概率可以通过以下方式获得:
其中,ˆPtq是第t个epoch的实际采样概率,而α是一个常数值,用于平衡历史概率和当前概率。
3 、EXPERIMENTS
在SYSU-MM01上与最新方法的对比实验
在RegDB上与最新方法的对比实验
最后附上论文链接,需要请自取:https://arxiv.org/pdf/2003.00213.pdf