CREST: Convolutional Residual Learning for Visual Tracking ---- 文献翻译理解

Abstract

鉴别相关滤波器(DCFs)在视觉跟踪中表现出良好的性能。他们只需要从初始帧中提取一小组训练样本来生成外观模型。然而,现有的DCFs分别从特征提取中学习滤波器,并使用经验加权的移动平均操作更新这些滤波器。DCF跟踪器很难从端到端的培训中受益。本文提出了将DCFs重构为单层卷积神经网络的算法。该方法将特征提取、响应图生成和模型更新集成到神经网络中进行端到端训练 为了减少在线更新过程中模型的退化,我们利用残差学习来考虑外观变化。在基准数据集上的大量实验表明,我们的波峰跟踪器性能优于最先进的跟踪器。

1. Introduction

视觉跟踪有多种应用,从视频监控、人机交互到自动驾驶。主要的困难是如何利用极其有限的训练数据(通常是第一帧中的一个边界框)来开发一个外观模型,以应对各种挑战,包括背景杂波、尺度变化、运动模糊和部分遮挡。鉴别相关滤波器(Discriminative correlation filters, DCFs)由于其以下两个重要特性,越来越受到跟踪界的关注[4,8,30]。首先,由于空间相关性通常是在傅里叶域中以元素乘积的形式计算的,所以DCFs适合于快速跟踪。其次,DCFs将输入特性的循环移位版本转换为软标签,即,由从0到1的高斯函数生成。与现有的在采样点上生成稀疏响应分数的跟踪检测方法[22,1,14,34]相比,DCFs总是在所有搜索点上生成稠密的响应分数。利用深度卷积特性[25],基于DCFs的跟踪算法[30,8,11]在最近的跟踪基准数据集上取得了最先进的性能[45,46,24]。
CREST: Convolutional Residual Learning for Visual Tracking ---- 文献翻译理解图1:卷积特征改善了DCFs (DeepSRDCF [8], CCOT [11], HCFT[30])。我们提出了CREST算法,将DCFs表示为带有残差学习的浅卷积层。与现有的具有卷积特性的DCFs相比,它的性能更好
然而,现有的基于DCFs的跟踪算法受到两个方面的限制。首先,学习DCFs与特征提取无关。虽然像[30,8,11]中那样通过深度卷积特性直接学习DCFs很简单,但是DCFs跟踪器从端到端的培训中获益甚微。其次,大多数DCFs跟踪器使用线性插值操作随时间更新所学习的过滤器。这种经验插值权值不太可能在模型自适应性和稳定性之间取得良好的平衡。由于有噪声的更新,它会导致DCFs跟踪器漂移。这些局限性提出了两个问题:(1)具有特征表示的DCFs是否可以端到端建模;(2)相对于使用线性插值等经验操作,DCFs是否可以更有效地更新?
针对这两个问题,我们提出了一种卷积残差学习算法(CREST)。我们将DCFs解释为深度神经网络中卷积滤波器的对偶。基于这一思想,我们将DCFs重新定义为单层卷积神经网络,直接生成响应图作为连续两帧之间的空间相关性。利用该公式,通过预先训练好的CNN模型(如VGGNet[38])提取特征,生成相关响应图,更新模型,有效地集成到端到端的表单中。空间卷积运算的功能类似于循环移位输入与相关滤波器之间的点积。它通过直接在空间域进行卷积来消除傅里叶变换中的边界效应。此外,卷积层是完全可微的。它允许使用反向传播更新卷积过滤器。与DCFs类似,卷积层以一次通过的方式在所有搜索位置生成密集的响应分数。为了正确地更新我们的模型,我们使用残差学习[15]来捕获外观变化,检测这个卷积层的输出与ground truth软标签之间的差异。这有助于缓解由噪声更新引起的模型快速退化。同时,残差学习有助于对较大的外观变化做出目标响应的鲁棒性。消融研究(5.2节)表明,提出的卷积层相对于最先进的DCFs跟踪器表现良好,而残差学习方法进一步提高了准确性
这项工作的主要贡献如下:

  • 我们将相关滤波器重新定义为一个卷积层。它将特征提取、响应生成和模型更新集成到卷积神经网络中进行端到端训练。
  • 我们应用残差学习来捕捉目标在时空框架下的外观变化。这有效地缓解了由于大量外观变化而导致的模型快速退化。
  • 我们在大规模序列的基准数据集上对我们的方法进行了广泛的验证。我们表明,我们的波峰跟踪器表现良好,反对最先进的跟踪器。

2. Related Work

文献[47,37,39]对视觉跟踪进行了广泛的调查。在本节中,我们主要讨论基于相关滤波器和CNNs的跟踪方法。
相关滤波器跟踪。由于傅里叶域的计算效率,用于视觉跟踪的相关滤波器受到了广泛的关注。基于相关滤波器的跟踪方法将所有循环移位的输入特征回归到高斯函数。它们不需要多个目标外观样本。MOSSE跟踪[4]通过自适应相关滤波器对目标外观进行编码,优化输出误差平方和。已经提出了几个扩展来考虑提高跟踪精度。这些例子包括:kernelized correlation filters [17], multiple dimensional features [12, 18], context learning [49], scale estimation [7], re-detection [31], subspace learning [28], shortterm and term memory [20], reliable collection [27]
以及空间正则化[9]。不同于现有的在傅里叶域中将相关运算表示为元素乘的相关滤波器框架,我们将相关滤波器表示为空间域的卷积运算。它由CNN中的一个卷积层表示。从这个意义上说,我们证明了特征提取、响应生成和模型更新可以集成到一个网络中进行端到端预测和优化。
由cnn跟踪。视觉表征对于视觉跟踪非常重要。现有的CNN跟踪器主要研究预训练的目标识别网络,建立在判别或回归模型上。鉴别跟踪方法提出多个粒子,通过在线分类进行细化。其中包括叠加去噪自编码器[44]、增量学习[26]、支持向量机分类[19]和全连通神经网络[33]。这些区别跟踪器需要辅助的训练数据以及离线的预训练。另一方面,基于回归的方法通常将CNN特征回归为软标签(例如,二维高斯分布)。他们专注于将卷积特性与传统的DCF框架集成。这些例子包括层次卷积特征[30]、自适应模糊[36]、空间正则化[8]和连续卷积运算[11]。此外,还有基于CNN的卷积特征[42]选择和[43]顺序更新的方法。此外,暹罗网络因其两种完全相同的流结构而受到越来越多的关注。其中包括目标验证[40]跟踪、相关[3]跟踪和位置轴预测[16]跟踪。此外,还对递归神经网络(RNN)进行了研究,以方便跟踪对象验证[6]。与现有框架不同的是,我们应用残差学习来捕获当前框架和ground-truth(初始框架)之间的预测响应映射的差异。这有助于考虑外观变化,并有效地减少由噪声更新引起的模型退化。
CREST: Convolutional Residual Learning for Visual Tracking ---- 文献翻译理解