【ReID】Hierarchical and Efficient Learning for Person Re-Identification

刚出的arvix，Hierarchical and Efficient Learning for Person Re-Identification。文章提出了结合global 和local feature和由多种loss联合监督的恢复feature的多层级高效网络。还改进了Random Erasing方法，将方形擦除区域改为了多边形（Random Polygon Erasing (RPE)），还提出了一种新的的名为Efficiency Score (ES) 的度量方法来评估模型效率。

论文一览：

痛点

1）大多数模型关注于嵌入复杂的模块来提高网络表现，但忽视了网络效率这一指标，文章提出的Hierarchical
and Efficient Network (HENet)既兼顾了高效的多层级网络信息提取，兼顾了网络的高效。

2）不同的损失函数设计时有不同的设计目标，文章将多种损失函数进行相互补充，用以提升model表现。

3）Random Erasing（RE）提出时是为了解决物体被遮挡的问题，提高模型鲁棒性。
文章指出当遇到一些不规则的物体遮挡（例如背包和自行车）时，RE的处理未免太过简单。因此文章设计了Random Polygon Erasing (RPE)，来解决不规则遮挡问题。

4）文章提出了Efficiency Score (ES)的度量方法来衡量网络在实际应用中的效率。

模型

HENet结构如下图：

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

主要分为3各分支，G1分支主要学习global feature，P4分支将feature map切分为4切片。其中G1分支的feature经过Conv1x1后求Triplet loss和cross entropy loss。

P4分支切片之前也将导出global feature一支求Triplet loss，还有一支经过FC层求Cross Entropy loss（CE loss）。P4分支切片之后得到4个local features则求Online Instance Matching Loss（OIM Loss）[1]，作者认为仅使用CE loss可能会导致分类器矩阵中的梯度变化很大，而在训练阶段，无参数的OIM Loss会利用额外的未标记数据，弥补这一点的不足。

R分支意在恢复feature map为原图，经过pooling和conv1x1得到recovery feature，之后使用一个decoder重建低分辨率的图像，并求pixelwise的Reconstruction Loss，即均方差MSE Loss。文章认为CE loss等分支学习图像的局部，而R分支可以学习图像的整个部分，可以看作一种对抗训练，迫使网络忽略背景，学习人体区域。MSE Loss最后计算于原image的distance。

这个R分支（recovery branch）让我想起了EANet：

https://juejin.im/post/5e81a03c6fb9a03c42378752

网络多一个分支，但不具有实际的意义，仅仅作为一种附加约束。只是EANet选择的约束是语义分割，而HENet选择的约束则是更为直接的原图像生成。

文章提出的随机多边形擦除如下图：

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

其伪代码如下：

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

实验

测得SOTA与历年SOTA的对比：

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

三个benchmark中测的SOTA如下：

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

不同分支的分离实验如下：

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

不同擦除的分离实验与横向对比如下：其中（K）中的常数为选取顶点数量：

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

可以看到RPE的表现要比原来的RE效果普遍要好。

不同成分分支与loss分离实验如下：

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

写作

"
(2.Related Work, 2.1 Deep Person ReID最后一句) We employ stripe-based idea to design
our model, which is easy to follow and has strong feature
extraction ability for practical application.
"

哈哈哈还挺实诚

问题

实验没测MSMT17，且也没有对比几个月前的Circle Loss。目前来看Circle Loss应该才是真正的SOTA

Fig. 2的网络结构图画的挺好的，就是相关性不够完整和清楚

写作的问题，没有指出Cross Entropy loss在文后缩写为CE loss，看得我蒙蔽了一阵。

没有源码也没有联系方式，很难受。

参考文献

[1] Xiao, T., Li, S.,Wang, B., Lin, L.,Wang, X., 2017. Joint detection and identification
feature learning for person search, in: CVPR, IEEE. pp. 3376–3385.

【ReID】Hierarchical and Efficient Learning for Person Re-Identification

痛点

模型

实验

写作

问题

参考文献

相关推荐