Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报

1 标题

  Person Re-Identification by Deep Joint Learning of Multi-Loss Classification 来源:IJCAI 2017  日期:7月6日

2 概述

  发文当时(2017年),用特征提取做REID的学者很多,但这些工作往往仅通过全局(global)特征或局部(local)特征实现。全局特征和局部特征之间存在一定的互补性,合理结合两种特征,能达到一加一大于二的效果,且在捕获信息时,同时观察全局信息和局部信息更贴近人类视觉系统。
  为此,作者建立了结合全局特征与局部特征的模型,以最大限度地发挥两者的互补优势,且仅用常规度量方式如L2距离来实现REID。

3 主要贡献

  • 提出了结合全局特征和局部特征的观点。
  • 提出了多损失联合学习(Joint Learning Multi-Loss,JLML) CNN模型,它也是一个双分支网络。它能够通过优化多分类损失(multiple classification losses)学习更具辨别性的全局特征和局部特征,此外,它能利用global和local特征的互补优势来应对图片中局部未对齐(local misalignment)的问题以及优化整体匹配标准(holistic matching criteria)。
  • 提出了基于结构稀疏性的特征选择学习机制(structured sparsity based feature selection learning mechanism)来提高多损失联合特征学习的鲁棒性,改善local和global representations之间的noise和data covariance。

4 算法及实验

4.1 网络结构

  • JLML模型结构,可以看出它是一个双分支网络,就如同之前提到的换衣数据集文章里的BC-Net一样。它包含了局部分支和全局分支,每个分支单独训练。整张图像经卷积层之后得到的特征传入global分支,将该特征切为m块送入local分支,前述的卷积得到的特征其实是由global分支和local分支共享的。
    Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
  • JLML的Backbone是ResNet-50,经调整后其实是ResNet-39,网络结构如下,可以看出传入local branch的特征实际上被分成了4块。
    Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
  • 加入structured sparsity特征选择学习机制之后
    • 全局分支的正则化项:l2,1=WG2,1=i=1dgwgi2l_{2,1}=||W_G||_{2,1}=\sum_{i=1}^{d_g}||w_g^i||_2WGW_Gcg×dgc_g\times{d_g}大小的矩阵;
    • 局部分支的正则化项:l1,2=WL1,2=i=1clj=1mwl,ji12l_{1,2}=||W_L||_{1,2}=\sum_{i=1}^{c_l}\sum_{j=1}^m||w_{l,j}^i||_1^2WLW_Lm×dlm\times{d_l}大小的矩阵,mm就是前面提到的分块数;
    • 分类损失用交叉熵损失ll,这样一来,最终损失函数:lglobal=l+λglobalWG2,1llocal=l+λlocalWL1,2l_{global}=l+\lambda_{global}||W_G||_{2,1}\,,\,l_{local}=l+\lambda_{local}||W_L||_{1,2}

4.2 实验

  1. 实验一共用到了四个数据集VIPeR, GRID, CUHK03, Market-1501,其中前两个是我未用过的,实验用到了caffe框架,下面的实验结果中,红色/蓝色条目分别代表第一、第二好。
  2. 不同数据集上模型性能对比
    • CUHK03数据集上性能对比
      Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
    • Market-1501上模型性能对比
      Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
    • VIPeR上模型性能对比,两个最好的方法是人工方法,与其他深度方法相比,JLML仍具优势
      Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
    • GRID上模型性能对比,和上一条一样,hand-craft方法占优势
      Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
  3. 不同的参数、方法设置模型性能对比,基于Market-1501数据集
    • 单独使用全局特征或局部特征
      Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
    • 使用Multi Loss效果更好,与某篇论文里的UniLoss对比
      Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
    • 是否共享低级特征(通过浅层卷积层得到的特征)
      Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
    • 是否用structured sparsity based feature selection learning(SFL)
      Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报
  4. 模型复杂度对比
    Person Re-Identification by Deep Joint Learning of Multi-Loss Classification——准研究生论文周报

5 收获与心得

  本文提出的网络模型也是双分支网络,和上一篇换衣数据集那个BC-Net类似,本文结合了全局特征与局部特征,BC-Net结合了生物特征与服饰特征,均把比较重要的特征结合。
  整体来看,这些模型在网络结构上并没有什么质的创新,更多的是思想、方法的新颖,就比如本文的JLML,核心只是对ResNet-50进行了修改,不过ResNet本身就是一个很简洁的网络。总结来说,ResNet,DenseNet这种Backbone的创新发明不容易,但是基于Backbone衍生一些有趣的模型相对简单,但衍生容易,保证模型性能难。包括上上周的加法器网络,用L1 norm代替卷积,简单巧妙,想到这些需要对深度学习和神经网络有一定的了解和直观认识,要学的还有很多!