D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese

Abstract 摘要

基于模板Z的判别跟踪器由于其鲁棒性而成为当前的主流跟踪范例，但仅限于包围盒跟踪BBOX和有限范围的变换模型，这降低了它们的定位精度。 提出了一种可区分的单镜头分割跟踪器D3S，缩小了视觉对象跟踪和视频对象分割之间的差距。一个单阶段网络应用两个具有互补几何属性的目标模型，一个对包括非刚性变形在内的大范围变换不变，另一个假设刚性对象，以同时实现高鲁棒性和在线目标分割。在没有按数据集微调和仅针对分段进行培训作为主要输出的情况下，D3S在VOT2016、VOT2018和GOT-10k基准测试中的表现优于所有跟踪器，在TrackingNet上的性能接近最先进的跟踪器。 D3S在视频对象分割基准上的表现优于领先的分割跟踪器SiamMask，性能与*视频对象分割算法不相上下，同时运行速度快一个数量级，接近实时。此处提供PyTorch实现：https://github.com/alanlukezic/d3s

！：引入了一个网络模块，对是否是刚性非刚性模型进行判断，但是如何判断值得留意，还有就是写法，这个地方很有可能加入我们的工作。

1.导论

视觉目标跟踪是计算机视觉的核心问题之一。最常见的公式考虑在给定单个训练图像的情况下报告视频的每一帧中的目标位置的任务。当前，在评估[22，24]中执行得最好的主要跟踪范例是相关边界框跟踪[11，3，33，2，54，28]，其中由多通道矩形模板表示的目标通过模板和搜索区域之间的互相关来定位。
最先进的基于模板的跟踪器应用高效的暴力搜索来定位目标。 **这种策略适用于像平移和比例改变这样的低维变换，**但是对于更一般的情况(例如引起纵横比改变和旋转)变得效率低下。作为折衷方案，现代跟踪器将近似穷举搜索与采样和/或边界框精化/回归网络[10，27]相结合，用于宽高比估计。但是，这些方法仅限于轴对齐的矩形。
D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese

图1.D3S跟踪器通过两个具有互补几何属性的模型来表示目标，一个模型对包括非刚性变形(GIM几何不变模型)在内的大范围变换不变，另一个模型假定具有运动的刚性对象通过欧几里得变换很好地近似(GEM几何约束欧几里德模型)。 D3S利用GIM和GEM的互补优势，提供最先进的本地化和精确分割，即使在存在实质性变形的情况下也是如此。
当边界框是目标的较差近似时，基于高维模板的变换的估计是不可靠的[31]。这是很常见的-考虑一下例如。伸长的、旋转的、可变形的物体，或张开双手的人。 在这些情况下，最准确和定义良好的目标位置模型是按像素分割的二进制掩模。 如果需要这样的输出，跟踪成为最近由Davis[38，40]和YoutubeVOS[51]挑战普及的视频对象分割任务。
与跟踪不同，视频对象分割挑战通常考虑在低背景干扰存在的情况下观察100帧以下的大目标。因此，*视频对象分割方法在短期跟踪场景中表现不佳[24]，其中目标覆盖图像的一小部分，在较长时间内实质上改变其外观，并且在杂乱的背景上移动。 最好的跟踪器应用视觉模型自适应，但在分割错误的情况下，它会导致不可恢复的跟踪失败[41]。 正因为如此，在过去，分割在基于模板的跟踪器[1]、约束DCF学习[33]和通过3D模型构建的跟踪[20]中仅扮演辅助角色。
！：这里的大概意思就是说分割任务单独执行跟踪效果不好的原因，以及矩阵回归单独执行跟踪不好的原因

最近，SiamRPN[28]跟踪器已经扩展到在两个阶段[50]中产生高质量的分割掩码-目标边界框首先由SiamRPN分支定位，然后由另一个分支仅在该区域内计算分割掩码。两阶段处理错过了联合处理定位和分割以增加稳健性的机会。另一个缺点是使用不能区别地适应变化的场景的固定模板。
针对上述局限性，我们提出了一种新的单镜头判别分割跟踪器D3S。目标由两个辨别视觉模型编码-一个是自适应的和高度区分的，但几何约束为欧几里得运动(GEM)，而另一个是大范围变换的不变性(GIM，几何不变模型)，参见图1。
GIM牺牲空间关系来实现大变形情况下的目标定位。另一方面，GEM只预测位置，但有区别地适应目标，并在GIM推断的可能的多个目标分段之间充当选择器。与相关跟踪器[50、27、10]相比，D3S的主要输出是在通过网络的单次遍历中计算的分割图，该图仅为分割而进行端到端训练(图2)。
某些应用程序和大多数跟踪基准要求将目标位置报告为边界框。作为第二个贡献，我们提出了一种将分割掩码解释为旋转矩形的有效方法。 这避免了容易出错的贪婪搜索，并自然地解决了位置、比例、纵横比和旋转的变化。
D3S在大多数主要的跟踪基准[23，24，19，35]上表现优于所有最先进的跟踪器，尽管没有接受过包围盒跟踪的培训。在视频对象分割基准[38，40]中，D3S的性能优于领先的分割跟踪器[50]，并且与*视频对象分割算法(通常调谐到特定域)不相上下，但运行速度更快几个数量级。
请注意，D3S不会针对不同的基准重新训练-单个预先训练的版本显示出非凡的泛化能力和多功能性

2. Related Work 相关工作

鲁棒定位关键取决于目标和背景干扰物之间的区分能力。这一特性已经在称为鉴别相关滤波器(DCF)的鉴别模板跟踪器中得到了深入研究[4]。模板学习被表示为一个(可能是非线性的)岭回归问题，并通过循环相关[4，12，17，30]来求解。虽然单纯基于颜色分割的跟踪器[8，41]不如DCF，但分割已被用于改进非矩形目标的DCF跟踪[1，31]。 Lukeziˇc etˇal.。 [33]使用颜色分割来约束DCF学习，并提出了一种具有手工特征的实时跟踪器，其性能可与具有深度特征的跟踪器相媲美。该方法被扩展到使用颜色和深度分割的长期[32]和RGB深度跟踪[20]。 DCF跟踪方面的进一步改进考虑了深层特征：Danelljan等人。 [11]为检测而预先训练的使用特征，Valmadre等人。 [46]针对DCF本地化和最近Danelljan等人提出的预训练加粗样式功能。 [10]提出了一种基于反向传播的深度DCF训练方法。
另一类跟踪器，称为siam跟踪器[2，44，15]，已经朝着生成性模板的方向发展。
Siam跟踪器将预先训练好的骨干离线应用于一般目标，从而通过搜索区域和在第一帧[2]中提取的目标模板之间的相关性最大化地区分对象-背景。模板和主干在跟踪过程中是固定的，因此具有出色的实时性能[24]。已经提出了几个多阶段暹罗扩展。这些包括添加区域建议网络以提高目标定位精度[28，27]，以及添加分割分支[50]以进行准确的目标分割。最近，已经提出了一种基于Backprop的模板自适应技术[29]，以提高跟踪的鲁棒性。
运动对象分割是新兴的视频对象分割(VOS)领域的中心问题[38，51]。最近的大多数作品[47，5，48，7，53]取得了令人印象深刻的成果，但涉及到大型的深层网络，这往往需要微调，而且速度很慢。 Hu等人。 [18]和Chen等人的研究成果。 [6]同时提出通过匹配第一帧中提取的特征进行分割，大大减少了处理时间。然而，VOS任务考虑对短视频中外观变化有限的大对象进行分割。因此，这些方法在具有小的、快速移动的对象的视觉对象跟踪任务中表现不佳。 本文提出的工作旨在缩小视觉对象跟踪和视频对象分割之间的差距。
D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese
图2.D3S分段体系结构。主干特征由GEM和GIM通路处理，产生目标位置(L)、前景相似度(F)和目标后方§通道。三个通道的输出被连接并细化成详细的分割图。

3. Discriminative segmentation network 判别分割网络

在D3S中使用了两个模型来稳健地处理目标外观变化和背景判别：在3.1节中提出了几何不变模型(GIM)，在3.2节中提出了几何约束欧几里德模型(GEM)。这些模型以并行路径处理输入，并产生几个粗略的目标存在通道，这些通道通过第3.3节描述的细化路径融合成详细的分割图。有关体系结构大纲，请参见图2。
D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese
图3.GIM-几何不变模型-特征与前景-背景模型{XF，XB}中的特征匹配，以获得目标(F)和背景(B)相似性通道。后通道§是F和B的Softmax。

3.1. Geometrically invariant model pathway 几何不变模型路径（产生SEGM分割非刚性分支）

可变形目标的精确分割需要判别模型中松散的空间约束。因此，我们的几何不变模型(GIM)由对应于目标和背景的两组深度特征向量组成 D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese
由于预先训练的主干特征对于精确分割而言是次优的，因此这些特征首先由1×1卷积层处理以将其降维到64，然后是3×3卷积层(在每个卷积层之后放置REU)。这两个层都在网络训练阶段进行调整，以产生用于分割的最佳特征。通过在对应于目标(XF)的像素位置处提取分割特征向量并从背景(XB)的紧邻中提取目标/背景模型，在第一帧中创建目标/背景模型。
在跟踪过程中，将从搜索区域提取的像素级特征与GIM(XGIM)的像素级特征进行比较，以在[18]之后计算前景和背景相似度通道F和B。具体地说，对于F通道计算，通过归一化点积将在像素i处提取的每个特征yi与所有特征xFj∈XF进行比较
D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese
其中，˜(·)表示L2规范化。像素i，Fi处的最终每像素前景相似度是通过对该像素处的top-K相似度进行平均来获得的，即，
其中top(·，K)是NF相似集合上的top-K平均算子。背景相似度通道B的计算遵循相同的原理，但是使用背景模型特征向量(即xBj∈XB)计算的相似度。最后，应用Softmax层来产生目标后通道P。GIM通路结构如图3所示。

3.2. Geometrically constrained model pathway几何约束模型路径（产生矩阵框分支）

虽然GIM产生了很好的目标-背景分离，但它不能很好地将目标与类似实例区分开来，导致健壮性降低(参见图1，第一行)。然而，稳健定位是鉴别相关滤波器的一个很好的性质。
虽然它们通过几何约束模型(即，矩形滤波器)来表示目标，但是为适应目标区分特征而开发的高效技术[13、33、10]允许在相当大的外观变化下可靠地跟踪。
因此，我们在几何约束欧几里德模型(GEM)路径中采用了最近的深度DCF公式[10]。在[10]之后，首先通过1×1卷积层将主干特征缩减到64个通道。减少的特征由64通道DCF和紧随其后的PELU非线性[45]相关。减速层和DCF由有效的支承配方训练(详见[10])。
相关响应的最大值被认为是最可能的目标位置。然而，D3S输出(即分割)需要指定在每个像素处目标存在的置信度。因此，通过计算从相关图中的最大值位置到搜索区域中剩余像素的(欧几里得)距离变换来构建目标定位信道。 GIM路径如图4所示。
D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese
图4.GEM–几何约束的欧几里德模型–降低了主干特征的维度，并将它们与DCF关联起来。目标定位通道(L)是对最大相关响应的距离变换，表示目标存在的每像素置信度。

3.3. Refinement pathway （再细化分支）

GIM和GEM路径提供关于像素级目标存在的补充信息。 GEM提供了对目标区域的稳健但相当不准确的估计，而GIM的输出通道显示了更多细节，但辨别性较差(图1)。此外，由于主干编码，单个输出是低分辨率的。因此，设计了一条细化路径来组合不同的信息通道，并将解决方案升级为准确而详细的分割图。
精化路径采用以下输入：来自GEM的目标位置通道(L)和来自GIM的前景相似度和后验通道(F和P)。
信道由3×3卷积层连接并处理，随后是REU，产生64个信道的张量。然后应用类似于[42，39]的三个阶段的放大来通过考虑在主干中计算的不同层中的特征来细化细节。升级阶段包括将输入通道的分辨率提高一倍，然后是两个3×3卷积层(每个卷积层之后是REU)。将得到的信道与来自相应骨干层的调整后的特征相加。具体地说，骨干特征通过3×3卷积层进行调整以用于升级任务，随后是REU。最后的升级阶段(仅包含分辨率加倍，之后是单个3×3卷积层)之后是Softmax，以产生最终分割概率图。细化路径如图5所示。 D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese
图5.改进路径结合了GIM和GEM渠道，并通过使用来自主干的调整后的功能逐步扩展它们。 Up∗是修改后的Up层(参见正文)。

4. Discriminative Segmentation Tracker 判别分割跟踪器

本节概述了第3节中的区分性分割网络在在线一般对象跟踪中的应用。在给定来自第一帧的单个监督训练示例的情况下，网络在所有剩余帧中产生目标分割掩码。然而，一些应用程序和大多数跟踪基准需要由边界框表示的目标位置。对于大多数基准，边界框通常是通过拟合与分段蒙版紧密匹配的轴对齐边界框来获得的。但是，对于需要旋转边界框的基准，我们在4.1节中提出了一个简单的拟合过程。第4.2节概述了跟踪步骤。

4.1. Bounding box fitting module（bbox自拟合）

来自区分性分割网络(第3节)的分割概率图以0.5概率阈值，以产生二进制分割掩码。只保留遮罩内最大的连通分量，并通过最小二乘法将椭圆拟合到其轮廓[14]。椭圆中心、长轴和短轴构成旋转边界框的初始估计值。对于过大的矩形，这通常是最*的解决方案，它更喜欢位于其区域内的大多数目标像素，但是不能很好地考虑区域内背景像素的存在。因此，通过使用坐标下降来优化预测分割掩码和拟合矩形之间的以下修改的重叠成本函数IoUMOD，我们进一步减少了主轴方向上的矩形边：
D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese
其中N+IN和N+OUT分别表示矩形内和外的前景像素数，N-IN表示矩形内的背景像素数。标量α控制N-in的贡献。
bbox盒拟合方法速度很快，平均只需2ms。

4.2 使用D3S进行跟踪

Initialization
使用groundtruth目标位置在第一帧上初始化D3S。 GEM和GIM初始化细节取决于目标gt是由边界框还是分段掩码表示的。
如果gt边界框可用，则GEM遵循[10]中提出的初始化过程，该初始化过程涉及通过考虑目标大小的四倍的区域在第一帧上通过Backprop来训练降维网络和DCF。另一方面，如果分割遮罩可用，则首先通过围绕分割目标的轴对齐矩形来近似gt目标边界框。
在分割掩码可用的情况下，通过从目标掩码提取前景样本和从邻域提取四倍于目标大小的背景样本来初始化GIM。然而，如果只有一个边界框可用，则首先构造近似的gt分割掩码。前景样本是从边界框内提取的，而背景样本是从四倍大的邻域中提取的。然后，在初始化区域上运行D3S的跟踪迭代，以推断近似gt分割掩码。从该蒙版中提取最终前景和背景样本。这个过程可能会迭代几次(类似于GrabCut[43])，但是，为了提高初始化速度和简单性，我们没有观察到改进，只选择了一次迭代。 += 过程
Tracking
在跟踪过程中，当新的帧到达时，在先前的目标位置提取目标大小的4倍的区域。该区域由第3节中的判别性分割网络处理，以产生输出分割掩码。如果评估方案要求，可将旋转的边界框安装到掩模上(4.1节)。
在Backprop更新过程[10]之后，在估计的目标位置上更新GEM中的DCF。