【MOT】Frame-wise Motion and Appearance for Real-time Multiple Object Tracking
Abstract
测试的计算量不会随着随着object的增加而增加。
设计了一个Frame-wise Motion and Appearance (FMA), computes the Frame-wise Motion Fields (FMF) between two frames
As auxiliary information is used to fix uncertain matches, Frame-wise Appearance Features (FAF) are learned in parallel with FMFs。
即FMA计算得到的FMF用于matching;FAF用于修正一些不确定的matches。
然后是一个real-time的方法。
Intro
不仅提出FMF\FAF而且还提出一个高效的inference方法连接objects。,并且用FAF修正一些不明确的associations
25fps
Method
FMF
FMF的GT计算如下
如Fig2里一样,我们会如式子(1)(2)里一样计算双向的motion vectors。这样不仅稳定还能处理以下状况:
FMF可以同时计算multiple objects。用一个MSE loss约束
FAF
当objects are crowed的时候,会出现不好拟合的情况。所以FAF会通过FMF找到一些bbox,然后用Re-IDd方法验证id。
给出两帧的bbox,会先crop出patches from FAF,然后计算二者的相似度。
训练的时候,同一个object的croppped feature会concatenate为positive samples,不同的object会conat为negative samples。正负比为4:1
Inference Algorithm
IOU(-)代表track里上一个detection的bbox和下一帧里候选框的IOU
SIM(-)代表track里上一个detection的bbox和下一帧里候选框的appearance similarities
所以Inference步骤是:
1:关联前一帧的tracks到后一帧
2:关联后一帧的tracks到前一帧
3:把剩下的tracks和detections用FAF关联
按照论文中给的伪算法,我大致总结一下怎么inference:
首先通过网络我们会得到FMF输出的前一帧到后一帧的差值模型H1,2 以及后一帧到前一帧的差值模型H3,4
1、然后先关联前一帧的tracks到后一帧:
(1)用H1,2把前一帧的detection bbox映射到后一帧得到d,计算d和下一帧里所有的detection得到的bbox的IOU,大于阈值则进行下一步;
(2)若和某个bboxIOU等于1,则直接把d加入到tracking中;
(3)否则的话,就计算前一帧bbox的crop feature和后一帧的相似度,若大于相似度的阈值,则把后一帧的bbox加入到tracking中;
(4)小于相似度阈值的话,就把之前前一帧映射到后一帧的bbox加入到tracking中。
(5)已关联的前一帧里的bbox后续不再参与计算
2、这时候应该从前一帧里完成了一些bbox到后一帧的关联,但可能会剩下一些,所以关联后一帧的tracks到前一帧:
(1)同理,用H3,4把后一帧的detection bbox映射到前一帧得到d,计算IOU大于阈值
(2)(3)(4)(5)同上
3、如果完成1和2,前一帧里还有bbox没有关联到任何下一帧的bbox:
(1)计算这些bbox的crop feature和后一帧里剩余的相似度,大于相似度阈值的话,把后一帧里对应的detection的bbox加入到tracking里
4、此时若后一帧里还有剩余的话,就当作新的ID处理。