DeepSORT

1. INTRODUCTION

随着目标检测技术的发展，基于检测的跟踪方法已成为多目标跟踪的主要方法。在这一范式中，对象轨迹通常是在全局优化问题中发现的，该问题一次处理整个视频批次。例如，流式网络公式[1，2，3]和概率图形模型[4，5，6，7]已经成为这类问题的流行框架。但是，由于是批处理，这些方法不适用于在每个时间步骤都必须有目标标识的在线场景。比较传统的方法有多假设跟踪（MHT）[8]和联合概率数据关联过滤器（JPDAF）[9]。这些方法以逐帧的方式进行数据关联。在JPDAF中，一个单一的状态假设是通过对单个测量值的关联可能性进行加权而产生的。在MHT中，所有可能的假设都被跟踪，但是为了计算的可处理性，修剪方案必须被应用。这两种方法最近在一个由检测跟踪的场景中被重新审视[10,11]，并显示了有希望的结果。然而，这些方法的性能增加了计算和实现的复杂性。简单在线和实时跟踪(SORT)[12]是一个简单得多的框架，它使用匈牙利方法在图像空间中执行卡尔曼滤波和逐帧数据关联，关联度量为边界盒重叠。这种简单的方法在高帧率下实现了有利的性能。在MOT挑战数据集[13]上，使用最先进的人员探测器[14]的SORT在标准检测上的平均排名高于MHT.这不仅强调了对象探测器性能对整体跟踪结果的影响，而且从从业者的角度来看也是一个重要的见解。

虽然在跟踪精度和准确度上取得了整体良好的表现，但SORT返回的身份切换次数相对较多。这是因为，所采用的关联度量只有在状态估计不确定性较低时才是准确的。因此，SORT在通过遮挡物进行跟踪方面存在不足，因为遮挡物通常出现在正视摄像机场景中。我们通过将关联度量替换为结合了运动和外观信息的更知情的度量来克服这个问题。特别是，我们应用了卷积神经网络(CNN)，它经过训练可以在一个大规模的人重新识别数据集上区分行人。通过对该网络的整合，我们提高了对漏判和遮挡的鲁棒性，同时保持了系统的易实现性、高效性和对在线场景的适用性。我们的代码和一个预训练的CNN模型被公开，以方便研究实验和实际应用开发。

2. SORT WITH DEEP ASSOCIATION METRIC

我们采用递归卡尔曼滤波和逐帧数据关联的传统单假设跟踪方法。在下一节中，我们将更详细地描述该系统的核心组件。

2.1. Track Handling and State Estimation

轨迹处理和卡尔曼滤波框架与[12]中的原始公式基本相同。我们假设了一个非常一般的跟踪场景，摄像机没有校准，我们也没有可用的自我运动信息。虽然这些情况对过滤框架构成了挑战，但这是最近的多个对象跟踪基准中考虑的最常见的设置[15]。因此，我们的跟踪场景是在八维状态空间上定义的

DeepSORT 括bounding box中心位置（u，v）,纵横比 $\gamma$ ，高度h，以及它们在图像坐标中的速度。我们采用标准的卡尔曼滤波器，采用恒速运动和线性观测模型，我们把边界坐标 $(u,v,\gamma,h)$ 作为物体状态的直接观测值。对于每条轨道k，我们计算自上次成功测量关联 $a_k$ 以来的帧数。该计数器在卡尔曼滤波预测期间递增，并在轨道与测量相关联时重置为0.超过预定义最大年龄 $A_{max}$ 的轨道被认为已经离开场景，并从轨道集中删除。对于不能与现有轨道相关联的每个检测，都会启动新的轨道假设。这些新的轨迹在前三帧中被归为暂定。在这段时间内，我们期望在每个时间步骤上都能成功测量关联。在前三帧内没有成功关联到测量的轨迹将被删除。

2.2. Assignment Problem

解决预测的卡尔曼状态和新到达的测量值之间关联的传统方法是建立一个可以使用匈牙利算法解决的赋值问题。在这个问题的表述中，我们通过两个合适的度量的组合，整合了运动和外观信息。

为了纳入运动信息，我们使用预测的卡尔曼状态和新到达的测量值之间的（平方）Mahalanobis 距离。

DeepSORT

其中，我们用 $(y_i,S_i)$ 表示第i个轨迹分布在测量空间的投影，用 $d_j$ 表示第j个bounding box检测。Mahalanobis 距离通过测量检测(detection)与平均轨迹位置相差多少个标准差来考虑状态估计的不确定性。此外，使用该度量可以通过在从 $\mathcal{X}^2$ 分布的逆计算的95%置信区间处对马氏距离进行阈值化来排除不太可能的关联。

DeepSORT

Mahalanobis 距离:马氏距离

如果第i条轨迹和第j条检测之间的关联是可接受的，则该值为1。对于我们的四维测量空间，相应的马氏阈值是t(1) = 9.4877。虽然当运动不确定性较低时，马氏距离是一个合适的关联度量，但在我们的图像空间问题表述中，从卡尔曼滤波框架中得到的预测状态分布只提供了物体位置的粗略估计。特别是，未计算的摄像机运动会在像平面中引入快速位移，使得马氏距离在通过遮挡进行跟踪时成为一个相当不可靠的度量。因此，我们将第二个指标集成到分配问题中。对于每个边界盒检测 $d_j$ ，我们计算一个appearance descriptors $\parallel r_j\parallel=1$ 。此外，我们保存一个集合: $\mathcal R_k=\{r^{(i)}_k\}^{L_k}_{k=1}$ last $L_k=100$ 每个轨道的关联appearance descriptors k 。然后，我们的第二个度量度量出现空间中第i个轨迹与第j个检测之间的最小余弦距离:

DeepSORT

同样，我们引入一个二元变量来表示根据这个度量，一个关联是否是可接受的

DeepSORT

并且我们在一个单独的训练数据集上为这个指标找到一个合适的阈值。在实践中，我们应用一个预先训练好的 CNN 来计算bounding box appearance descriptors。这个网络的架构在2.4节中描述。

两种指标结合起来，相互补充，服务于分配问题的不同方面。一方面，Mahalanobis距离提供了基于运动的可能物体位置的信息，这对短期预测特别有用。另一方面，余弦距离考虑了外观信息，这些信息对长期闭塞后恢复身份特别有用，此时运动的辨别力较弱。为了建立关联问题，我们将这两个度量结合起来，使用一个加权和

DeepSORT

Mahalanobis距离如果关联在两个度量的选通区域内，我们称之为可接受的关联：

$b_{i,j}=\Pi^2_{m=1}b^{(m)}_{i,j}$ （6）

DeepSORT

各指标对组合关联成本的影响可以通过超参数控制 $\lambda$ 。在我们的实验中，我们发现，当有大量的摄像机运动时，设置 $\lambda$ =0是一个合理的选择。在这种设置中，关联成本项中只使用了外观信息.然而，马哈兰诺比斯门仍然被用来忽略基于卡尔曼滤波器推断的可能物体位置的不可行分配。

2.3. Matching Cascade

在全局赋值问题中，我们引入了一个级联，而不是求解测量与轨迹之间的关联，以解决一系列子问题。为了激励这种方法，请考虑以下情况。当一个物体被遮挡的时间较长时，随后的卡尔曼滤波预测会增加与该物体位置相关的不确定性。因此，概率质量在状态空间中展开，观测概率的峰值变小。直观地讲，关联度量应该通过增加测量到轨道的距离来解释这种概率质量的扩散。与直觉相反，当两个轨道竞争同一检测时，马哈兰诺比斯距离有利于更大的不确定性，因为它有效地减少了任何检测的标准差与预测轨道平均值的距离。这是一种不受欢迎的行为，因为它可能会导致更多的轨道碎片和不稳定的轨道。因此，我们引入了一个匹配级联，它优先于更常见的对象，从而在关联似然中编码我们的概率扩散概念。

Listing1概述了我们的匹配算法。作为输入，我们提供了一组轨道 $\mathcal T$ 和检测 $\mathcal D$ 指数以及最大年龄 $A_{max}$ 。在第1行和第2行，我们计算了关联代价矩阵和允许关联矩阵。在此基础上，我们对轨道年龄n进行迭代，以解决年龄递增轨道的线性分配问题。在第6行中，我们选择在最后n帧中没有与检测相关联的轨道 $\mathcal T_n$ 子集。在第7行中，我们解决了 $\mathcal T_n$ 中的轨道和未匹配的检测U之间的线性分配。在第8行和第9行，我们更新了匹配和未匹配的检测集，在第11行完成后返回。请注意，这个匹配级联会优先考虑年龄较小的轨迹，即最近出现过的轨迹。

在最后的匹配阶段，我们在年龄n=1的未确认和未匹配的轨迹集上运行原始SORT算法[12]中提出的交叉于联合关联，这有助于解释突然的外观变化，例如，由于静态场景几何的部分遮挡，并增加对错误初始化的鲁棒性。

2.4. Deep Appearance Descriptor

通过使用简单的最近邻查询而不需要额外的度量学习，我们的方法的成功应用需要在实际在线跟踪应用之前，离线训练一个良好的区分特征嵌入。为此，我们采用了一个CNN，该CNN已经在一个大规模的人员再识别数据集[21]上进行了训练，该数据集包含了1,261名行人的1,100,000多张图像，这使得它非常适合在人员跟踪环境中进行深度度量学习。

DeepSORT

我们网络的CNN架构如表1所示.综上所述，我们采用了一个宽残差网络[22]，它有两个卷积层，然后是六个残差块。维度为128的全局feauture地图在密集层10中计算。最后的批处理和l2归一化将特征投射到单位超球上，以兼容我们的余弦外观度量。网络总共有2,800,864个参数，在Nvidia GeForce GTX 1050移动GPU上，32个边界框的一次正向传递大约需要30毫秒。

量。网络总共有2,800,864个参数，在Nvidia GeForce GTX 1050移动GPU上，32个边界框的一次正向传递大约需要30毫秒。

因此，只要有现代化的GPU，这个网络就很适合在线跟踪。虽然我们的训练过程的细节超出了本文的范围，但我们在GitHub仓库1中提供了一个预训练的模型，以及一个可以用来生成特征的脚本。

DeepSORT

DeepSORT

1. INTRODUCTION

2. SORT WITH DEEP ASSOCIATION METRIC

2.1. Track Handling and State Estimation

2.2. Assignment Problem

2.3. Matching Cascade

2.4. Deep Appearance Descriptor

相关推荐