2018 CVPR:Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training
Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training
当前的问题及概述:
大多数现有的方法高度依赖bounding box,然而,由于实际场景的限制,目前的检测模型往往产生不准确的bounding box,进而避免了算法的性能。
本文提出了一种新的由粗到细的金字塔模型,该模型不仅融合了局部信息和全局信息,而且还强化了局部信息和全局信息之间的线索,避免了bounding box的不准确性带来的影响。可以从下图看到,由于bounding box的遮挡问题,可以将图片进行不等分的划分,在下图从local到global的过程中,少量的局部视图(左)不能很好地匹配,而那些全局视图(右)有更多相似的线索。
模型及loss:
2.1Coarse-to-Fine Pyramidal Model :
首先由backbone提取输入图像的feature map(C×H×W),再将feature map按照空间高度轴分为n个部分(C×(H/n)×w),本文n=6,金子特最底层(l=1)为n个部分,最顶层(l=n)为feature map M,其余层数见图2,也可以定义为(类似PCB模型):
对于金字塔P中的每个分支P{l, k},首先分别进行GMP和GAP后将这两个变量相加,形成具有相同编码通道大小的向量,后经过BN层和ReLU减少维数形成特征向量,表示为:x(l, k) = BO(P{l, k}),再输出给全连接层采用softmax loss作为ID loss进行分类:
同时通过triplet loss区分差异较大的部分,缩短差异较小的部分:
具体见图3:
本文采用动态训练策略,具体训练方式略。
实验:
数据集:Market-1501 , DukeMTMC-reID , CUHK03
不同网络比较:
消融实验:
其中,“0”表示不使用金字塔的相应级别,而“1”表示使用金字塔的相应级别。“Feature-64”表示每个分支的特征的维数为64。
总结:
面对单模态ReID的遮挡问题,目前常用的bounding box方法并不适用,本文提出由粗到细的金字塔结构以提取图像从local到global的特征,在通过feature map经金字塔结构提取到的特征通道后,经过GAP和GMP相加后输入给BN、ReLU得到不同粗细的特征,通过triplet loss进一步区分正样本和负样本,在输入给全连接层,通过softmax loss进行ID分类。