基于区域与全局融合特征的以图搜车算法

摘要:该算法分为三个阶段:首先,以车辆 IDs 作为标签信息,训练一个车辆的全局特征网络;其次,加入局部区域特征网络,进而联合训练局部区域特征与全局特征网络;在推理阶段,仅采用全局特征网络的特征计算车辆图像之间的相似度。

1.国内外研究现状

然而,本文提出的方法网络结构更加简洁,且避免了车辆属性的标注,更能符合实际应用需求。

2.网络

基于区域与全局融合特征的以图搜车算法
共享部分基于 ResNeXt-50[8] 网络结构进行优化。
全局分支首先使用 1×1 卷积将图 1 所示的 block4 的特征图的特征通道压缩至 512 维,以减少网络的信息冗余,提高网络的非线性,然后使用一层全局池化层,最后接一层全连接层用于分类。全连接层以车辆 IDs 为标签,采用Softmax Loss 与 Center-Loss[14] 联合监督训练,以提高深度特征的区分能力,从而使类内距离变小,类间距离增大。
Softmax Loss 与 Center-Loss 联合损失函数:基于区域与全局融合特征的以图搜车算法
将图 1 中的 block4 的特征图从高度这个维度按照从上到下的顺序分成 3 个重叠的局部区域,每一个局部区域对应车辆不同的部分。
Ft 基本对应车辆的顶部以及挡风玻璃的上半部分。
Fm 基本对应挡风玻璃部分以及引擎盖上中部分。
Fb 基本对应引擎盖中下半部分以及车头部分。
每一个局部区域后接两层全连接层以产生每一局部区域的特征。最后,使用车辆 IDs 作为标签,以 Softmax Loss 作为分类监督信号以促进每个局部区域的特征学习。

基于区域与全局融合特征的以图搜车算法采用多个分类任务联合训练,其总体损失函数:
基于区域与全局融合特征的以图搜车算法
采用全局分支与局部分支多任务联合训练的方式,不仅让全局分支利用了车辆图像的结构先验,同时也促进了局部分支与全局分支互相学习,使得两个分支都能学习到更有识别力的细节特征。

训练方式:首先,训练全局分支;其次,保持全局分支网络不变,加入局部分支网络,并使用训练好的全局分支的权重初始化全局分支网络,进而联合训练全局分支与局部分支网络。
测试阶段:仅采用全局分支提取车辆的特征,进而采用余弦距离计算特征之间的相似度