ATOM: Accurate Tracking by Overlap Maximization

摘要

针对当前大多数跟踪算法忽视准确的目标状态估计的重要性这个问题,本文提出引入目标检测领域使用的IoU-Net来优化跟踪的边界框bbox,从而提高定位准确性。此外,本文还通过一个基于共轭梯度训练的分类网络来提高模型的判别能力。

背景

作者指出,可以将跟踪问题分解为分类任务和估计任务,前者根据将图片区域进行前景背景分类来进行目标的粗略定位,后者通过bbox对目标状态进行进一步精确定位。目前大多数跟踪算法将研究重点放在如何训练更有判别力的分类器,而如何进行准确的目标状态估计这个问题却经常被忽视,一般情况下采用一个简单的多尺度搜索策略进行目标边界框bbox的估计,即预设若干尺度大小,分别计算对应的响应值,其中最高响应值对应的尺度就确定为当前帧的尺度大小。但在跟踪过程中,目标可能会发生形变或遇到各种干扰而发生长宽比的改变,单纯的尺度估计不能较好地处理该问题。

贡献

为了解决上述问题,本文提出在目标分类和目标状态估计两个子任务之间“架起沟通的桥梁”,提出一个融合上述两个组件的网络框架。

  • 受目标检测领域最近提出的IoU-Net的启发,本文训练目标估计模块来进行模板帧与搜索帧IoU重叠分数的预测,如下图所示。由于传统的IoU-Net是class-specific(目标检测是对物体类别进行分类,无需考虑类内差距),跟踪领域则是target-specific,因此需要往IoU-Net中融入特定目标的特征。本文通过引入一个modulation-based网络来解决学习特定目标特征的问题。在跟踪阶段,应用离线训练好的IoU-Net最大化模板帧与搜索帧的IoU重叠率分数,从而确定精确的bbox位置。
    ATOM: Accurate Tracking by Overlap Maximization
    本文的目标估计模块如上图所示,通过将模板帧的特征信息表示成系数向量,并与搜索帧特征进行逐通道相乘来学习target-specific特征,从而将检测领域的class-specific的IoU-Net较好地应用到跟踪领域。在离线训练中最小化IoU的预测误差,在线跟踪中通过最大化搜索帧与模板帧的IoU分数来预测精确的目标状态。

  • 本文分类模块网络结构较为简单且进行在线训练,并使用一个基于共轭梯度的策略来确保跟踪实时性(通过网络的反向传播来实现共轭梯度法,不是通过数学推导然后hand-coding)。

参考

[1] https://gkwang.net/atom/