DiMP:Learning Discriminative Model Prediction for Tracking

摘要

本文主要针对Siamese网络系列跟踪算法忽略目标背景信息的问题进行改进,旨在提高跟踪模型对于目标和背景的判别能力。具体地,本文设计了一个结合least-square regression和hinge loss优势的新的损失函数,并通过end-to-end的框架进行损失函数中关键参数的学习。在跟踪阶段,该框架能在较少的迭代次数下根据输入的目标预测模型的权重,得到一个target-specific的跟踪模型。

背景

通常,单目标跟踪是指给给定第一帧任意一个目标状态(目标位置和尺度大小)的前提,预测该目标在后续帧的运动轨迹。由于target-specific信息只有在在线跟踪阶段才能确定,无法通过离线预训练进行学习(也就是说,在跟踪阶段出现的需要跟踪的目标可能在训练阶段没有出现),因此如果想通过end-to-end的框架进行跟踪,需要考虑这个问题。

本文的baseline就是Siamese系列算法,这也是目前在单目标跟踪领域非常主流的跟踪框架,轻量级且效果尚可。Siamese算法通过计算模板图片和当前跟踪图片的cross-correlation来评估二者的相似性,相似性最高的区域作为当前跟踪的目标位置。但此类算法存在若干缺陷:第一,在跟踪阶段只考虑了目标的外观特征,忽略了对背景信息的利用;第二,对于在预训练中没有出现的物体,采用相似性度量的方式泛化能力不够;第三,Siamese系列的模型跟踪策略不够好。

贡献

那么,本文的出发点就是针对上述问题提出相应的改进方法:
第一,本文设计一个end-to-end的模型权重预测网络,通过一个新的损失函数同时学习目标信息和背景信息,确保预测的跟踪模型具有足够判别力。
第二,上述模型权重预测网络仅用很少的参数进行学习,而且通过网络来调参,减少过拟合,从而提高跟踪模型的泛化能力。
第三,本文设计了一个快速迭代的模型更新策略,以往的更新步长是预设且固定的,在本文在步长参数会根据模型更新进行相应的调整。

本文方法

DiMP:Learning Discriminative Model Prediction for Tracking
最终的跟踪网络由两个分支组成,一个是目标分类分支(如上图所示)用于判别目标和背景,一个是边界框估计分支用于进行精确的边界框预测(应用前人成果)。对于分类分支,提取若干训练样本和检测样本的深度特征,将这些feature map和对应的边界框输入模型预测模块,输出用于目标定位的滤波器权重。将检测样本获取的feature map与加权滤波器进行卷积计算,得到置信度分数,置信度最高的位置就对应当前帧目标中心位置。对于边界框估计分支,基于最大化边界框和真实标注IoU分数,对边界框位置进行微调。

工作1:提出一个新的损失函数并通过网络调参

作者认为传统的基于最小二乘法的损失函数对于负样本的处理是将其损失降到最小,而不是提高跟踪模型的判别能力,并且简单进行预测值与真实值相减的操作无法解决目标信息和背景信息分布不平衡的问题。因此,为了解决第一个问题,作者利用最小二乘法的优点和 hinge loss 的优点来构造损失函数,通过数据驱动的方法来学习目标函数中的参数。
DiMP:Learning Discriminative Model Prediction for Tracking
根据像素点距离目标中心的远近来设置参数,当区域中像素点属于目标区域时,mc接近1;当区域中像素点属于背景区域时,mc接近0。对于临界点不好判定,本文通过数据驱动的方法对损失函数中的参数进行学习,取代了人工标注。具体地,将公式中的参数用径向基函数进行表示(即参数值与像素点到中心位置的距离有关)。

工作2:提出一个强有力的迭代策略来确保模型快速收敛

在进行滤波器更新时,作者指出传统的梯度下降方法通过一个常数步长来更新,收敛速度慢,在本文中,作者对损失函数做了一个近似,使得步长参数可以根据滤波器的更新来动态调节,使得在每一步迭代中都要重新计算步长参数,确保模型快速收敛。

参考

[1] https://gkwang.net/dimp/