Unsupervised Person Re-identification via Multi-label Classification——准研究生论文周报
1 标题
Unsupervised Person Re-identification via Multi-label Classification 来源:CVPR 2020 日期:06月16日 周二
2 概述
本文提出了一种基于多标签分类的无监督(unsupervised)行人重识别方法,将无标签的REID任务变为多分类问题,从而找到图像真正标签。和之前的无监督方法不同,本文提出的方法使用多标签分类损失来更新网络,所以它并不依赖于标记好的数据(labeled data)和性能较好的预训练模型(good pretrained model)。
作者用到的数据集和我的毕业设计相同,分别是Market-1501
,DukeMTMC-reID
和MSMT17
,实验结果和多种无监督方法进行了对比,证明了提出方法的有效性。
3 创新点
- 提出了新的无监督REID方法(MPLP+MMCL),不依赖任何labeled数据,将每张行人图像都视作一类(为每张行人图片贴一个单一类别的label),然后进行多标签分类,如下图
Fig.1
。 -
MPLP(Memory-based Positive Label Prediction):为了提高label的预测质量,基于memory bank来预测真正的标签,它考虑了标签的visual similarity和cycle consistency,如上图
Fig.1
,所有提取的特征先放在memory bank中,若两张图:a)具有很大的相似性;b)具有相同的neighbors(即这两张图同与某一个图片极其相似),则认为两张图具有相同的label。 - MMCL(memory-based multi-label classification loss):多标签分类损失,将分类的score强制变为-1,1,而且摒弃了Sigmoid函数,从而解决了多标签分类的梯度消失问题。
4 实验
4.1 细节
- 使用ResNet-50作为backbone,并加载预训练模型
- 去掉pooling-5之后的层并加上一个批量归一化层(BN),这能输出2048维的特征
- 用pooling层的特征进行计算距离
- 测试阶段,提取pooling-5层的特征
- 对于多标签分类,用memory bank来存储L2归一化后的特征,5个epochs后用MPLP预测标签
- 和我的毕设使用了一样的方法,参考CamStyle进行了图像增强
- 图像resize为256*128,用SGD方法训练模型,ResNet-50基础层学习率为0.01,其他的为0.1,memory更新速率从0线性增长到0.5
- 训练60轮,每40轮学习率变为十分之一,batch大小为128
- MPLP的相似阈值设为0.6
- MMCL中权重设为5,选择前1%的negative类计算损失
- 迁移学习使用相同的batch大小,在BN层后加一个FC层用于分类
- 进行了消融实验(Ablation Study)来说明算法的有效性,如下图
4.2 调参
- MPLP的Similarity threshold在0.3-0.7之间调整
- MMCL的权重系数在1-7之间调整
4.3 结果对比
- Market-1501和DukeMTMC数据集上无监督REID方法对比
- MSMT17上无监督REID方法对比
5 收获与心得
目前来看,利用深度神经网络训练REID模型的传统方法已经很成熟,一些经典数据集如Market,DukeMTMC上的rank-1都被刷到了接近100%,然而模型仍然不能够投入实际使用,因此,有更多学者开始转移研究重心,以提高REID模型的泛化能力及鲁棒性,如现在比较热门的基于无监督学习的REID以及跨模态REID(cm-REID),及时参考学习这些新的方法,是继续研究REID的必然选择。