论文内容描述
《Data association for multi-object tracking via deep neural networks》(2019)
- 分为encoder和decoder;
- 将数据关联问题描述为匹配detection和track,约束为一对一;为了解决FP(误报)和FN(漏报)的问题,关联矩阵应为(M+N)*(M+N);
- 论文为了简化使用关联矩阵为M*(N+1);
- encoder的input为一组边界盒对[detection-track];
- decoder的output为score矩阵,通过loss函数进行反馈;
- LSTM层后为映射层,是使用tanh的全连接层;
- 双向LSTM的输入从左上到右下↘、从右下到左上↖;
Bi-direction LSTM的实现在《Sequence to sequence learning with neural networks》
Multiple Object Tracking via Feature Pyramid Siamese Networks(2019)
- 特点是不仅有外观特征,还使用了时空运动特征;
- FPSN-MOT:在plain Siamese架构上的FPN(feature pyramid network)
- Siamese network(孪生网络)通过输入的两张图片,输出是否为同类别,优点是可以直接处理没有的类别,缺点是不保证收敛;
步骤
输入:图片A,B
- 根据不同的权值(A,B共享权值参数),提取出多级别的特征maps,抽取每一级别的最后一个特征maps,组成这张图片的feature pyramid network;
- 进行步长为1的卷积,批归一化,ReLU;
- 进行步长为3的反卷积,批归一化,ReLU;(使用反卷积进行上采样,代替FPN中的最邻近上采样)
- 将上一步得到的加在前一层上(两张图象非常相似时起作用),一直传递加到第一层,最后一层什么都不加;
- 进行全局平均池化;
- 进行三层全连接网络,得到相似性矩阵;
FSPN-MOT
只保存最后的特征G,当一个detected bounding box和一个track匹配后,这个detected bounding box的其他对都会删除;分数计算过程中小于一个阈值t1就停止计算,选择分数最高的对匹配成功;当一个对象消失的帧保留超参数t2连续帧;