【Re-ID】现有方法调研
目标跟踪基础与智能前沿
寻找 目标跟踪方向的小伙伴,如果你苦于没有地方可以和同方向的小伙伴交流,我们创建了一个交流群,点上方链接可以进入,每周的交流活动通过该号宣传,群里随时随地可以展开讨论,无论是学术交流,还是环境配置,实验讲解,欢迎加入我们,一起交流进步!
点击上方链接,微信关注回复"数据集",获得目标跟踪几大经典数据集下载链接。
文章目录
- 参考学习资料
- 一、ReID方法分类
- 研究方法分类以下几个类别:
- 1、表征学习(Representation learning)[1-4] :得到行人的特征表示(CNN / 属性),转化成 分类问题\ 验证问题
- 2、 度量学习(Metric learning) : 度量相似度,是的相同行人图片的距离尽可能小、不同行人图片的距离尽可能大
- 1) 对比损失(Contrastive loss)[5] : 相同行人的距离越来越小 + 不同行人的距离越来越大
- 2) 三元组损失(Triplet loss) :**固定图片(Anchor) αα**,**正样本图片(Positive)pp** 和 **负样本图片(Negative)nn**:
- 3) 四元组损失(Quadruplet loss): 增加了一个不同类别的负样本
- 4) 难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss): 距离最远的正样本距离越来越小, 距离最近的正样本距离越来越大
- 5) 边界挖掘损失(Margin sample mining loss, MSML)
- 总结: 各种Loss 性能对比
- 3、局部特征
- 基于视频序列的ReID
参考学习资料
一、ReID方法分类
定义:ReID : 给定一个监控行人的图像, 检索跨设备下的该行人图像。
研究方法分类以下几个类别:
1、 基于表征学习的ReID方法
2、 基于度量学习的ReID方法
3、 基于局部特征的ReID方法
4、 基于视频序列的ReID方法
5、 基于GAN造图的ReID方法
1、表征学习(Representation learning)[1-4] :得到行人的特征表示(CNN / 属性),转化成 分类问题\ 验证问题
CNN可以自动提取出表征特征(Representation)
研究者把行人重识别问题看做分类(Classification/Identification)问题或者验证(Verification)问题:
(1)分类问题是指利用行人的ID或者属性等作为训练标签来训练模型;
(2)验证问题是指输入一对 (两张)行人图片,让网络来学习这两张图片是否属于同一个行人。
论文[1]利用 Classification/Identification loss 和 verification loss 来训练网络,其网络示意图如下图所示。
- Classification/Identification loss :
- ** verification loss :**
也有论文认为光靠行人的ID信息不足以学习出一个泛化能力足够强的模型。
行人属性标注: 在这些工作中,它们额外标注了行人图片的属性特征,例如性别、头发、衣着等属性。通过引入行人属性标签,模型不但要准确地预测出行人ID,还要预测出各项正确的行人属性,这大大增加了模型的泛化能力,多数论文也显示这种方法是有效的。
下图是其中一个示例[2],从图中可以看出,网络输出的特征不仅用于预测行人的ID信息,还用于预测各项行人属性。通过结合ID损失和属性损失能够提高网络的泛化能力。
- ID损失:
- 属性损失:
优点:表征学习的方法比较鲁棒,训练比较稳定,结果也比较容易复现
缺点:容易在数据集的domain上过拟合,并且当训练ID增加到一定程度的时候会显得比较乏力
2、 度量学习(Metric learning) : 度量相似度,是的相同行人图片的距离尽可能小、不同行人图片的距离尽可能大
- 对比损失(Contrastive loss)[5]
- 三元组损失(Triplet loss)[6-8]
- 四元组损失(Quadruplet loss)[9]
- 难样本采样三元组损失(Triplet hard loss with batch hard mining, TriHard loss)[10]
- 边界挖掘损失(Margin sample mining loss, MSML)[11]
首先,假如有两张输入图片和,通过网络的前馈我们可以得到它们归一化后的特征向量:
1) 对比损失(Contrastive loss)[5] : 相同行人的距离越来越小 + 不同行人的距离越来越大
2) 三元组损失(Triplet loss) :固定图片(Anchor) αα,正样本图片(Positive)pp 和 负样本图片(Negative)nn:
三元组损失是一种被广泛应用的度量学习损失,之后的大量度量学习方法也是基于三元组损失演变而来。
三元组损失需要三张输入图片。和对比损失不同,一个输入的三元组(Triplet)包括一对正样本对和一对负样本对。
三张图片分别命名为固定图片(Anchor) αα,正样本图片(Positive)pp 和 负样本图片(Negative)nn。
其中(z)+表示max(z,0)。 α是根据实际需求设计的阈值参数。
如下图所示,三元组可以拉近正样本对之间的距离,推开负样本对之间的距离,最后使得相同ID的行人图片在特征空间里形成聚类,达到行人重识别的目的。
三元组可以拉近正样本对之间的距离,推开负样本对之间的距离,最后使得相同ID的行人图片在特征空间里形成聚类,达到行人重识别的目的。
论文[8]认为原版的Triplet loss只考虑正负样本对之间的相对距离,而并没有考虑正样本对之间的绝对距离,为此提出改进三元组损失(Improved triplet loss):
3) 四元组损失(Quadruplet loss): 增加了一个不同类别的负样本
元组(Quadruplet)需要四张输入图片,和三元组不同的是多了一张负样本图片。
即四张图片为固定图片(Anchor)αα ,正样本图片(Positive)pp ,负样本图片1(Negative1)n1n1 和负样本图片2(Negative2)n2n2。” 其中n1n1 和 n2n2是两张不同行人ID的图片,其结构如上图所示。
【?】为什么四元组之间考来的是绝对距离? 四元组损失为什么能让模型学到更好的特征。
4) 难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss): 距离最远的正样本距离越来越小, 距离最近的正样本距离越来越大
传统的三元组随机从训练数据中抽样三张图片,这样的做法虽然比较简单,但是抽样出来的大部分都是简单易区分的样本对。如果大量训练的样本对都是简单的样本对,那么这是不利于网络学习到更好的表征。大量论文发现用更难的样本去训练网络能够提高网络的泛化能力,而采样难样本对的方法很多。
论文[10]提出了一种基于训练批量(Batch)的在线难样本采样方法——TriHard Loss。
5) 边界挖掘损失(Margin sample mining loss, MSML)
**边界样本挖掘损失(MSML)是一种引入难样本采样思想的度量学习方法。**三元组损失只考虑了正负样本对之间的相对距离。**为了引入正负样本对之间的绝对距离,四元组损失加入一张负样本组成了四元组。**四元组损失也定义为:
总结: 各种Loss 性能对比
3、局部特征
早期的ReID研究大家还主要关注点在全局的global feature上,就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈,于是开始渐渐研究起局部的local feature。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。
1) 图片切块
图片切块是一种很常见的提取局部特征方式[12]。如下图所示,图片被垂直等分为若干份,因为垂直切割更符合我们对人体识别的直观感受,所以行人重识别领域很少用到水平切割。
之后,被分割好的若干块图像块按照顺序送到一个长短时记忆网络(Long short term memory network, LSTM),最后的特征融合了所有图像块的局部特征。
但是这种缺点在于对图像对齐的要求比较高,如果两幅图像没有上下对齐,那么很可能出现头和上身对比的现象,反而使得模型判断错误。
为了解决图像不对齐情况下手动图像切片失效的问题,一些论文利用一些先验知识先将行人进行对齐,这些先验知识主要是预训练的人体姿态(Pose)和骨架关键点(Skeleton) 模型。论文**[13]**先用姿态估计的模型估计出行人的关键点,然后用仿射变换使得相同的关键点对齐。
2) 骨架关键点定位
如下图所示,一个行人通常被分为14个关键点,这14个关键点把人体结果分为若干个区域。 为了提取不同尺度上的局部特征,作者设定了三个不同的PoseBox组合。
之后这三个PoseBox矫正后的图片和原始为矫正的图片一起送到网络里去提取特征,这个特征包含了全局信息和局部信息。
特别提出,这个仿射变换可以在进入网络之前的预处理中进行,也可以在输入到网络后进行。
如果是后者的话需要需要对仿射变换做一个改进,因为传统的仿射变化是不可导的。
为了使得网络可以训练,需要引入可导的近似放射变化,在本文中不赘述相关知识。
我的感受
太牵强啦。。 局部特征和全局特征, 姿态矫正, 有种刻意为之的感觉。
CVPR2017的工作Spindle Net[14]也利用了14个人体关键点来提取局部特征。和论文[12]不同的是,Spindle Net并没有用仿射变换来对齐局部图像区域,而是直接利用这些关键点来抠出感兴趣区域(Region of interest, ROI)。
Spindle Net网络如下图所示,首先通过骨架关键点提取的网络提取14个人体关键点,之后利用这些关键点提取7个人体结构ROI。
网络中所有提取特征的CNN(橙色表示)参数都是共享的,这个CNN分成了线性的三个子网络FEN-C1、FEN-C2、FEN-C3。
对于输入的一张行人图片,有一个预训练好的骨架关键点提取CNN(蓝色表示)来获得14个人体关键点,从而得到7个ROI区域,其中包括三个大区域(头、上身、下身)和四个四肢小区域。
这7个ROI区域和原始图片进入同一个CNN网络提取特征。原始图片经过完整的CNN得到一个全局特征。
三个大区域经过FEN-C2和FEN-C3子网络得到三个局部特征。四个四肢区域经过FEN-C3子网络得到四个局部特征。
之后这8个特征按照图示的方式在不同的尺度进行联结,最终得到一个融合全局特征和多个尺度局部特征的行人重识别特征。
论文[15]提出了一种全局-局部对齐特征描述子(Global-Local-Alignment Descriptor, GLAD),来解决行人姿态变化的问题。
与Spindle Net类似,GLAD利用提取的人体关键点把图片分为头部、上身和下身三个部分。
之后将整图和三个局部图片一起输入到一个参数共享CNN网络中,最后提取的特征融合了全局和局部的特征。
为了适应不同分辨率大小的图片输入,网络利用全局平均池化(Global average pooling, GAP)来提取各自的特征。
和Spindle Net略微不同的是四个输入图片各自计算对应的损失,而不是融合为一个特征计算一个总的损失。
以上所有的局部特征对齐方法都需要一个额外的骨架关键点或者姿态估计的模型。
而训练一个可以达到实用程度的模型需要收集足够多的训练数据,这个代价是非常大的。
为了解决以上问题,AlignedReID[16]提出基于SP距离的自动对齐模型,在不需要额外信息的情况下来自动对齐局部特征。
而采用的方法就是动态对齐算法,或者也叫最短路径距离。
这个最短距离就是自动计算出的local distance。
这个local distance可以和任何global distance的方法结合起来,论文[15]选择以TriHard loss作为baseline实验,最后整个网络的结构如下图所示,具体细节可以去看原论文。
3) 姿态矫正
基于视频序列的ReID
每张图像都经过一个共享的CNN提取出图像空间内容特征,之后这些特征向量被输入到一个RNN网络去提取最终的特征。最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。
而这个特征用于代替前面单帧方法的图像特征来训练网络。
基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息,还考虑了帧与帧之间的运动信息等。
基于单帧图像的方法主要思想是利用CNN来提取图像的空间特征,而基于视频序列的方法主要思想是利用CNN 来提取空间特征的同时利用递归循环网络(Recurrent neural networks, RNN)来提取时序特征。
上图是非常典型的思路,网络输入为图像序列。每张图像都经过一个共享的CNN提取出图像空间内容特征,之后这些特征向量被输入到一个RNN网络去提取最终的特征。
最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。
而这个特征用于代替前面单帧方法的图像特征来训练网络。