PaperReading:Multi-Object Tracking with Quadruplet Convolutional Neural Networks
论文链接:Multi-Object Tracking with Quadruplet Convolutional Neural Networks
1. 动机
作者提出一种能通过使用quadruplet损失学习关联不同帧之间检测到的目标。该网络同时考虑目标外观和对应时序上的邻近帧用来进行数据关联。不同于常规的排序损失,quadruplet损失受到额外约束的作用使得时间上邻近的检测结果比大时间间隔在位置上更紧密。同时本文采用多任务损失策略来联合学习目标关联和边界框回归来更好地进行定位。整个网络的训练时端到端的。在跟踪策略上,目标之间的关联通过使用来自推荐网络的标准学习的最小最大标签传播方法实现。
2.技术细节
2.1多目标跟踪的Quad-CNN网络
本文设计的Quad-CNN网络在Siamese和triplet网络的基础上进行展开。多目标跟踪的数据关联工作不仅应考虑检测目标的类别标签还需要关注它们被检测到时对应的时间戳,为此提出Quad-CNN来学习带有该约束的embedding(检测到目标之间的相似度同时由它们的标签和时间距离决定)。下图定义了本文中谈及的quadruplet关系。
由于quadruplet的关联依赖于目标定位的精度,作者使用边界框回归作为额外的目标来学习网络。Quad-CNN的优化目标是最小化多目标任务的损失:
2.1.1鲁棒关联的quadruplet排序损失
在给定quadruplet,上图中四张子图的关系定义如下:
外观特征
在训练样本数不充分的情况下,由于过拟合问题的存在,学习一个鲁棒的特征(联合上部分和下部分的embedding)十分困难。为解决该问题,作者对最后一个卷积层的输出(pool5)切片成两部分,并且学习两个相互独立的全连接层()。进行切片能有效减少总的网络参数。实验验证,切片策略有效阻止网络过拟合情况同时提高目标跟踪的精度。最后对切片输出进行串联生成唯一的外观特征。
特定序列的运动感知特征
输入向量:
利用embedding网络提取从的运动感知位置特征:
其中是利用边界框回归对的 转换。
利用表示序列k的统计,表示特定序列的embedding特征,表示特定序列的运动感知位置embedding,相应表达式如下:
特征权重
因为输入特征—外观特征和位置特征在大小和空间上是截然不同,无法直接对二者的相关关系进行度量,这里使用特征权重网络提取权重向量。
边界框回归损失
为消除检测目标的定位信息中的噪声干扰,作者引入边界框回归损失:
2.2基于MOT的最小最大标签传播
多目标跟踪问题使用图的形式进行解决,优化方法(k-最短路径法和网络流法)是常用的寻找目标最优轨迹的典型方法。
2.3实现
训练检测结果
- 因为检测到的目标的特性和真值是不同的,只有检测道德边界框具备推断价值,所以作者使用检测到的边界框进行训练。
- 训练检测结果无法直接进行(检测结果未和真值的IDs关联),为此本文使用匈牙利算法对检测结果和真值标签进行关联。
- 需要注意:一些检测边界框没有对应IDs,这是由于误分配真值和误检测。
Quadruplet采样 - 有利于训练误差的反向传播
- 有利于训练模型的快速收敛
首先在一个mini-batch中挑选来自不同帧的一个anchor实例和两个正例,然后挑选一个与anchor有不同ID的负例。值得注意的是,挑选负例有两种方法:1随机挑选;2.利用硬约束进行挖掘;
数据增强 - CNNs的输入尺寸被resize为,然后在上面进行大小为的随机crop。
- 所有序列进行水平翻转,翻转后的结果作为独立不相关的序列用于训练
- 使用小范围颜色抖动来消除过拟合并提升网络的泛化性能