您的位置: 首页 > 文章 > 【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

分类: 文章 • 2024-06-22 18:04:22

Abstract

测试的计算量不会随着随着object的增加而增加。

设计了一个Frame-wise Motion and Appearance (FMA), computes the Frame-wise Motion Fields (FMF) between two frames

As auxiliary information is used to fix uncertain matches, Frame-wise Appearance Features (FAF) are learned in parallel with FMFs。

即FMA计算得到的FMF用于matching；FAF用于修正一些不确定的matches。

然后是一个real-time的方法。

Intro

不仅提出FMF\FAF而且还提出一个高效的inference方法连接objects。，并且用FAF修正一些不明确的associations

25fps

Method

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

FMF

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

FMF的GT计算如下

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

如Fig2里一样，我们会如式子（1）（2）里一样计算双向的motion vectors。这样不仅稳定还能处理以下状况：

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

FMF可以同时计算multiple objects。用一个MSE loss约束

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

FAF

当objects are crowed的时候，会出现不好拟合的情况。所以FAF会通过FMF找到一些bbox，然后用Re-IDd方法验证id。

给出两帧的bbox，会先crop出patches from FAF，然后计算二者的相似度。

训练的时候，同一个object的croppped feature会concatenate为positive samples，不同的object会conat为negative samples。正负比为4：1

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking

Inference Algorithm

IOU（-）代表track里上一个detection的bbox和下一帧里候选框的IOU

SIM（-）代表track里上一个detection的bbox和下一帧里候选框的appearance similarities

所以Inference步骤是：

1：关联前一帧的tracks到后一帧

2：关联后一帧的tracks到前一帧

3：把剩下的tracks和detections用FAF关联

按照论文中给的伪算法，我大致总结一下怎么inference：

首先通过网络我们会得到FMF输出的前一帧到后一帧的差值模型H1,2 以及后一帧到前一帧的差值模型H3,4

1、然后先关联前一帧的tracks到后一帧：

（1）用H1,2把前一帧的detection bbox映射到后一帧得到d，计算d和下一帧里所有的detection得到的bbox的IOU，大于阈值则进行下一步；

（2）若和某个bboxIOU等于1，则直接把d加入到tracking中；

（3）否则的话，就计算前一帧bbox的crop feature和后一帧的相似度，若大于相似度的阈值，则把后一帧的bbox加入到tracking中；

（4）小于相似度阈值的话，就把之前前一帧映射到后一帧的bbox加入到tracking中。

（5）已关联的前一帧里的bbox后续不再参与计算

2、这时候应该从前一帧里完成了一些bbox到后一帧的关联，但可能会剩下一些，所以关联后一帧的tracks到前一帧：

（1）同理，用H3,4把后一帧的detection bbox映射到前一帧得到d，计算IOU大于阈值

（2）（3）（4）（5）同上

3、如果完成1和2，前一帧里还有bbox没有关联到任何下一帧的bbox：

（1）计算这些bbox的crop feature和后一帧里剩余的相似度，大于相似度阈值的话，把后一帧里对应的detection的bbox加入到tracking里

4、此时若后一帧里还有剩余的话，就当作新的ID处理。