Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
1 标题
Person Re-Identification by Deep Joint Learning of Multi-Loss Classification 来源:IJCAI 2017 日期:7月6日
2 概述
发文当时(2017年),用特征提取做REID的学者很多,但这些工作往往仅通过全局(global)特征或局部(local)特征实现。全局特征和局部特征之间存在一定的互补性,合理结合两种特征,能达到一加一大于二的效果,且在捕获信息时,同时观察全局信息和局部信息更贴近人类视觉系统。
为此,作者建立了结合全局特征与局部特征的模型,以最大限度地发挥两者的互补优势,且仅用常规度量方式如L2距离来实现REID。
3 主要贡献
- 提出了结合全局特征和局部特征的观点。
- 提出了多损失联合学习(Joint Learning Multi-Loss,JLML) CNN模型,它也是一个双分支网络。它能够通过优化多分类损失(multiple classification losses)学习更具辨别性的全局特征和局部特征,此外,它能利用global和local特征的互补优势来应对图片中局部未对齐(local misalignment)的问题以及优化整体匹配标准(holistic matching criteria)。
- 提出了基于结构稀疏性的特征选择学习机制(structured sparsity based feature selection learning mechanism)来提高多损失联合特征学习的鲁棒性,改善local和global representations之间的noise和data covariance。
4 算法及实验
4.1 网络结构
- JLML模型结构,可以看出它是一个双分支网络,就如同之前提到的换衣数据集文章里的BC-Net一样。它包含了局部分支和全局分支,每个分支单独训练。整张图像经卷积层之后得到的特征传入global分支,将该特征切为m块送入local分支,前述的卷积得到的特征其实是由global分支和local分支共享的。
- JLML的Backbone是ResNet-50,经调整后其实是ResNet-39,网络结构如下,可以看出传入local branch的特征实际上被分成了4块。
- 加入structured sparsity特征选择学习机制之后
- 全局分支的正则化项:,是大小的矩阵;
- 局部分支的正则化项:,是大小的矩阵,就是前面提到的分块数;
- 分类损失用交叉熵损失,这样一来,最终损失函数:
4.2 实验
- 实验一共用到了四个数据集
VIPeR, GRID, CUHK03, Market-1501
,其中前两个是我未用过的,实验用到了caffe
框架,下面的实验结果中,红色/蓝色条目分别代表第一、第二好。 -
不同数据集上模型性能对比
- CUHK03数据集上性能对比
- Market-1501上模型性能对比
- VIPeR上模型性能对比,两个最好的方法是人工方法,与其他深度方法相比,JLML仍具优势
- GRID上模型性能对比,和上一条一样,hand-craft方法占优势
- CUHK03数据集上性能对比
-
不同的参数、方法设置模型性能对比,基于Market-1501数据集
- 单独使用全局特征或局部特征
- 使用Multi Loss效果更好,与某篇论文里的UniLoss对比
- 是否共享低级特征(通过浅层卷积层得到的特征)
- 是否用structured sparsity based feature selection learning(SFL)
- 单独使用全局特征或局部特征
-
模型复杂度对比
5 收获与心得
本文提出的网络模型也是双分支网络,和上一篇换衣数据集那个BC-Net类似,本文结合了全局特征与局部特征,BC-Net结合了生物特征与服饰特征,均把比较重要的特征结合。
整体来看,这些模型在网络结构上并没有什么质的创新,更多的是思想、方法的新颖,就比如本文的JLML,核心只是对ResNet-50进行了修改,不过ResNet本身就是一个很简洁的网络。总结来说,ResNet,DenseNet这种Backbone的创新发明不容易,但是基于Backbone衍生一些有趣的模型相对简单,但衍生容易,保证模型性能难。包括上上周的加法器网络,用L1 norm代替卷积,简单巧妙,想到这些需要对深度学习和神经网络有一定的了解和直观认识,要学的还有很多!