Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

论文核心:

1.motivation: 如果可以在训练集中增加更多样本来了解摄像机之间的风格差异,就能够解决个人身份识别中的数据稀缺问题,并学习不同摄像机之间的不变特征。

解决:使用cycleGAN完成镜头间图片转换,损失函数使用cycleGAN loss 和 identify mapping loss。

2.motivation:增加数据多样性以防止过度拟合,但是也会产生相当程度的噪音。 

解决:为了缓解这个问题,在改进后的版本中,进一步在样式转移样本上应用标签平滑正则化(LSR)[25],以便他们的标签在训练期间柔和地分布。


因此,使用生成图片及原图训练,扩充了数据集。训练集使用的是原始训练图像和风格转移图像的组合。

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

论文网络框架:

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

本文方法:

1.cycleGAN回顾:

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

2.Camera-aware Image-Image Translation

使用CycleGAN生成新的训练样本:不同相机之间的样式被认为是不同的domains 。 给定包含从L个不同相机视图收集的图像的数据集,使用CycleGAN对每个相机学习translation 模型。 为了鼓励样式转换以保持输入和输出之间的颜色一致性,我们在CycleGAN损失函数(方程1)中添加了identity mapping loss  [41],以在使用目标的实际图像时强制生成器逼近身份映射域作为输入。 身份映射损失可以表示为:

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

3.3. Baseline Deep Re-ID Model

鉴于真实的和假的(风格转移的)图像都有ID标签,我们使用ID识别嵌入ID-discriminative embedding 
(IDE)[37]来训练重新识别CNN模型。 使用Softmax损失,IDE将重新识别训练视为图像分类任务。 网络如图3所示。在实现中,所有输入图像都调整为256×128。

使用ResNet-50 [7]作为主干,并按照[37]中的训练策略对ImageNet预训练模型进行微调。 我们放弃最后的1000维分类层并添加两个完全连接的层。 第一个FC层的输出有1024个维度,命名为“FC-1024”,然后是批量归一化[9],ReLU和Dropout [22]。 另外“FC-1024”遵循[24]中的做法,可以提高准确度。 第二个FC层的输出是C维的,其中C是训练集中类的数量。

3.4. Training with CamStyle

假设由真实和伪造(风格转移)图像(带有其标识标签)组成的新训练集,本节讨论使用CamStyle的训练策略。 当我们平等地看待真实和虚假的图像时,即给他们分配一个“one-hot”标签分布时,我们获得了我们方法的一个vanilla版本。 另一方面,当考虑假样本引入的噪声时,我们引入完整版本,其中包括标签平滑正则化(LSR)[25]。

Vanilla version.新训练集中的每个样本属于单个身份。 在训练期间,在每个小批量中,我们随机选择M个真实图像和N个假图像。 损失函数可以写成:

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

where LR and LF are the cross-entropy loss for real images and fake images, respectively. 

minimizing the cross entropy is equivalent to maximizing the probability of the ground-truth label. 
For a given person with identity y, the cross-entropy loss in Eq. can be rewritten as 

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

and p(c) is the predicted probability of the input belonging to label c (属于label y的概率)

Full version.虽然style-transferred的图像具有正面的数据增强效果,但也会给系统带来噪音。因此,虽然Vanilla version在减少few-camera system的过度配合方面具有优势,但由于缺乏数据,over-fitting趋于发生,其效果在more cameras下受到影响。原因在于,当来自更多相机的数据可用时,过度拟合问题不那么关键,并且传输噪声的问题开始出现。

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

传递噪音源于两个原因。 1)CycleGAN不能完美地模拟传输过程,因此在图像生成过程中出现错误。 2)由于遮挡和检测错误,实际数据中存在噪声样本,将这些噪声样本转换为假数据可能产生更多噪声样本。在图4中,我们将二维空间中真实和虚假数据的深层特征的一些例子可视化。大部分生成的样本都分布在原始图像周围。当传输错误发生时(见图4(c)和图4(d)),假样本将是一个噪声样本,并且与真实分布相距很远。当真实图像是一个噪声样本时(见图4(b)和图4(d)),它与具有相同标签的图像相距很远,因此其生成的样本也会有噪声。这个问题降低了在full-camera systems下生成的样本的益处,其中相对丰富的数据具有较低的过度拟合风险。为了缓解这个问题,我们将标签平滑正则化(LSR)[25]应用于样式转移的图像,以轻柔地分发他们的标签。也就是说,我们对 ground-truth的信任度较低,并将小权重分配给其他类别。每个风格转移图像的标签分布的重新分配被写为,

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

对于真实图像,我们不使用LSR,因为它们的标签与图像内容正确匹配。此外,我们通过实验证明,在真实图像中添加LSR并不能提高全摄像系统下的重新识别性能(参见第4.4节)。For style-transferred images, we set E = 0:1, the loss function LF = LLSR(E = 0:1).


4. Experiment
Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

we randomly select M real images and N fake (style-transferred) images in a training mini-batch. If not specified, we set M : N = 3 : 1. Note that, since the number of fake images is larger than that of real images, in each epoch, we use all the real images and randomly selected a N/M*(1/L-1) proportion of all fake images.

Camera Style Adaptation for Person Re-identification(镜头间的风格转换re-id)

In a system with 3 cameras, for example, the training and testing sets both have 3 cameras. In Fig. 8, as the number of cameras increases, the rank-1 accuracy increases.