Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报

1 标题

Person Re-Identification by Deep Joint Learning of Multi-Loss Classification 来源：IJCAI 2017 日期：7月6日

2 概述

发文当时(2017年)，用特征提取做REID的学者很多，但这些工作往往仅通过全局(global)特征或局部(local)特征实现。全局特征和局部特征之间存在一定的互补性，合理结合两种特征，能达到一加一大于二的效果，且在捕获信息时，同时观察全局信息和局部信息更贴近人类视觉系统。
为此，作者建立了结合全局特征与局部特征的模型，以最大限度地发挥两者的互补优势，且仅用常规度量方式如L2距离来实现REID。

3 主要贡献

提出了结合全局特征和局部特征的观点。
提出了多损失联合学习(Joint Learning Multi-Loss,JLML) CNN模型，它也是一个双分支网络。它能够通过优化多分类损失(multiple classification losses)学习更具辨别性的全局特征和局部特征，此外，它能利用global和local特征的互补优势来应对图片中局部未对齐(local misalignment)的问题以及优化整体匹配标准(holistic matching criteria)。
提出了基于结构稀疏性的特征选择学习机制(structured sparsity based feature selection learning mechanism)来提高多损失联合特征学习的鲁棒性，改善local和global representations之间的noise和data covariance。

4 算法及实验

4.1 网络结构

JLML模型结构，可以看出它是一个双分支网络，就如同之前提到的换衣数据集文章里的BC-Net一样。它包含了局部分支和全局分支，每个分支单独训练。整张图像经卷积层之后得到的特征传入global分支，将该特征切为m块送入local分支，前述的卷积得到的特征其实是由global分支和local分支共享的。
JLML的Backbone是ResNet-50，经调整后其实是ResNet-39，网络结构如下，可以看出传入local branch的特征实际上被分成了4块。
加入structured sparsity特征选择学习机制之后
- 全局分支的正则化项： $l_{2,1}=||W_G||_{2,1}=\sum_{i=1}^{d_g}||w_g^i||_2$ ， $W_G$ 是 $c_g\times{d_g}$ 大小的矩阵；
- 局部分支的正则化项： $l_{1,2}=||W_L||_{1,2}=\sum_{i=1}^{c_l}\sum_{j=1}^m||w_{l,j}^i||_1^2$ ， $W_L$ 是 $m\times{d_l}$ 大小的矩阵， $m$ 就是前面提到的分块数；
- 分类损失用交叉熵损失 $l$ ，这样一来，最终损失函数： $l_{global}=l+\lambda_{global}||W_G||_{2,1}\,，\,l_{local}=l+\lambda_{local}||W_L||_{1,2}$

4.2 实验

实验一共用到了四个数据集VIPeR, GRID, CUHK03, Market-1501，其中前两个是我未用过的，实验用到了caffe框架，下面的实验结果中，红色/蓝色条目分别代表第一、第二好。
不同数据集上模型性能对比
- CUHK03数据集上性能对比
- Market-1501上模型性能对比
- VIPeR上模型性能对比，两个最好的方法是人工方法，与其他深度方法相比，JLML仍具优势
- GRID上模型性能对比，和上一条一样，hand-craft方法占优势
不同的参数、方法设置模型性能对比，基于Market-1501数据集
- 单独使用全局特征或局部特征
- 使用Multi Loss效果更好，与某篇论文里的UniLoss对比
- 是否共享低级特征(通过浅层卷积层得到的特征)
- 是否用structured sparsity based feature selection learning(SFL)
模型复杂度对比

5 收获与心得

本文提出的网络模型也是双分支网络，和上一篇换衣数据集那个BC-Net类似，本文结合了全局特征与局部特征，BC-Net结合了生物特征与服饰特征，均把比较重要的特征结合。
整体来看，这些模型在网络结构上并没有什么质的创新，更多的是思想、方法的新颖，就比如本文的JLML，核心只是对ResNet-50进行了修改，不过ResNet本身就是一个很简洁的网络。总结来说，ResNet，DenseNet这种Backbone的创新发明不容易，但是基于Backbone衍生一些有趣的模型相对简单，但衍生容易，保证模型性能难。包括上上周的加法器网络，用L1 norm代替卷积，简单巧妙，想到这些需要对深度学习和神经网络有一定的了解和直观认识，要学的还有很多！