论文笔记:DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification
论文笔记:DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification
这是2014年发的一篇CVPR,算是一篇很早的文章,号称“this paper is the first work to use deep learning for person re-identification”。当然,论文最后的呈现结果rank-1只有20%,而且对比算法都是传统的非深度学习算法如KISSE等。这个结果放到现在可以说是非常之low了,然而考虑到2014年的技术环境,何凯明的resnet那时还没有放出来(现在很多效果很好的re-id模型都要用到resnet做特征提取或者预训练)。所以本文作为re-id深度学习的入门文章还是可以一看的。
我们知道,流行的re-id深度学习框架主要分为两类:identification和verification。郑良在1中专门提到并对比了两种框架,并总结到identification总体上要比verification框架要好,因为verification框架并没有完全利用标注信息。但也有人不同意这种说法,2这篇文章直指郑良的说法是不准确的,并给出了verification框架中三元组损失的一种更好的改进方式。其实verification框架相对于identification框架是由天然优势的,那就是样本比identification更多,这是应用深度学习的天然优势。当然,随着数据集的不断扩大和一些数据增强手段的应用(如GAN),identification框架样本数量也不再是一个问题。
本文是一个verification框架。
针对re-id问题中的photometric transforms和geometric transforms,本文分别建立了模型。具体而言,针对亮度转换,本文通过滤波器对来学习这种转换,使得两组滤波器学习到不同摄像头下图像的共同的特征。而对于几何转换,本文通过块匹配层,卷积最大池化层和全连接层来建模。
总体框架图
下面我们按照论文的顺序总结
Feature extraction
上面提到了用两组滤波器对来学习不同摄像头下的共有特征。这里我放一下原文的话来解释这个模型的作用:
Two paired filters represent the same feature most discriminative for person re-identification. They are applied to different camera views and their difference reflects the photometric transforms. The convolutional layer is followed bymax-pooling, which makes the features robust to local misalignment.
这个不难理解,通过训练过程来学习滤波器对,使他们学习到这种不同摄像头之间造成的GAP,并且关注到更有鉴别力的特征。
这里注意到通过最大池化操作将feature map大小降到H1×W1×K,来增加一些对于局部不匹配的鲁棒性。其中K为通道数。对应公式为:
Patch matching
本文将行人图片水平分为M条带,对与在同一个通道的两张feature map,各有M个水平带。本文引入了displacement matrices的概念。定义为:
由于feature map代表的是对滤波器的相应,所以当两张feature map 中同一水平带上的patch对这一通道的滤波器相应都很高时,他们的乘积就会很大。所以displacement matrices 的作用是什么呢?引入原文中的原话:These displacement matrices encode the spatial patterns of
patch matching under the different features.
总结就是编码了两张图片在不同通道的空间模式。后面的鉴别就是基于两张图片的空间模式。
到现在为止其实本文的主要模型和思想都已经阐述完了。
紧接往下看
Modeling mixture of photometric transforms
这个就非常简单了,相当于在通道的维度做了最大池化操作。这个层叫做maxout-grouping layer。
除了增加鲁棒性,这一部分还提到这种做法的一种缘由:使图像块对滤波器对有稀疏的响应(因为此时响应的维度已经低于滤波器的维度)。而稀疏往往代表着强健。
Modeling part displacement
这给也非常简单,算是一种对displacement matrices 的一种鲁棒化吧,达到放大特征视野的作用。原文的话是:obtain the displacement matrices of body parts on a larger scale。
Modeling pose and viewpoint transforms
最后就是一个全连接啦,文章也对全连接层做了物理上的解释:Such global geometric transforms can be viewed as different combinations of part displacement and their distributions are multi-modal。
Identification Recognition
这个就是我们熟悉的softmax和对应的损失函数啦。不多讲了。值得注意到的是
在这个公式中设置了a和b的学习参数。
这是我的第一篇****博客,写的不好希望大家多多包涵,刚刚入门re-id。还有很多理解不到位,请大家多批评指正。