Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

2015年,学术界主流都在DL,而这篇文章却用传统方法达到了远超state of the art的结果:

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

Retinex transform预处理:

为了解决不同摄像头下光照条件变化很大:作者在特征提取前进行了预处理,使用的是multiscale Retinex algorithm(这个算法之前做图像增强的时候接触过) ,Retinex algorithm能够增强光照阴影区域的色彩信息,有利于重识别。

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

可以看到,经过Retinex变换处理后的图片由于光照条件变化引起色彩的变化得到了改善。

LOMO特征:

在之前的工作中,有论文把一张行人图片划分成6个水平长条,每个长条(stripe)提取一个single histogram,作者认为这样做会丢失空间细节信息,于是采取了划窗、在每个patch提取HSV、SILTP特征的方式、水平patchs特征间每个元素取最大值的方式(这就是LOMO的含义:Local Maximal Occurrence Feature)

下面详细介绍:

HSV:描述颜色特征。提取8*8*8bin的直方图,不是常用的8+6+6,文中称为joint HSV histogram

SILTP:LBP的改进版本,描述纹理特征。提取了两个尺度,SILTP0.3 4,3和SILTP0.3 4,5,其中N=4,所以是3^4 bin

对于HSV和SILTP,每个直方图的bin表示该种模式出现的概率

对于一张48x128的,10x10的窗口,stride为5,扫描出24个horizontal groups ((128-10)/5 ),文中还进行了multi-scale处理,对图片缩放了两次,得到24*64、12*32图片,他们可以扫描出11 ((64-10)/5=11)、5 ((32-10)/5=5)个groups。

每个group包含多个patch,每个patch能够提取HSV、SILTP特征,连接在一起形成一个特征向量。然后对同一个group中的patchs向量在元素上选最大值,作为整个group的特征。

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

所有的group特征向量连接在一起即是这张图片的LOMO特征。

所以一张行人样本的LOMO特征维度是(8*8*8+(3^4)*2)*(24+11+5) = 26960维

最后使用了log函数来压缩大的值,然后归一化HSV、SILTP特征到单位长度

XQDA度量学习:

1)    背景知识:Bayesian Face and KISSME Revisit

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

基本思想就是类内和类间差异都是0均值得正态分布,可以写出他们得概率分布。对于一个偏移▲,如果类内的可能性大于类外,则判定为同类;否则判定为不同类。

2)XQDA 

提取出的LOMO特征维度较高,如果直接使用KISSME度量学习的话运算复杂度太高。所以降维成了必要的选择,之前有人把提取的特征进行PCA降维,但是由于PCA是无监督降维方式,没有考虑到距离度量学习,所以降维再使用KISSME的效果一般。这里作者提出了学习一个r维的子空间W,对于(x-z)T 这个1xd维向量,乘以W这个dxr维矩阵(相当于一个线性变换)映射为1xr维向量,即映射到子空间W上。然后就变成了KISSME的距离的形式。

那么现在的任务就变成了优化

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

求矩阵W,使得对同类间距离小于不同类的距离,从而达到分类的效果。 

因为d中包含两个求逆的操作,直接优化d比较困难。作者指出

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

 因此可以转而优化广义瑞利商:

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

这又等价于:

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

可以通过特征值分解的方式来解决。最大的特征值就是J(w)的值,对应的特征向量就是w1。选择所以特征值大于1的特征向量作为每列组成W即为最终的解(选择的特征向量越少,对应子空间维度越低,越有利于计算。选择大于1的特征值对应的特征向量是因为特征值大于1表明sigma E大于sigma I,对于判别有利,所以选入,而小于1则不能提供判别信息,没必要选入)

最后作者还提供了计算sigma E以及sigma I的简化算法,具体参见论文,这里不再详述。

XQDA部分关键原文截图如下:

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)