Multi-Object Tracking and Segemtation（MOTS）论文解读

######12月博客第一篇~2019要结束喽######

多目标分割与跟踪（MOTS）的文章——Voigtlaender P , Krause M , Osep A , et al. MOTS: Multi-Object Tracking and Segmentation[J]. 2019. 从9月份开始断断续续看到现在，中间有学到不少东西，最近算是年末总结一下吧。

文章的内容包括了数据集的构建、任务评估指标的重新定义、baseline网络的简单介绍以及对网络结构研究的实验、网络性能评估以及分析等等，不过，童鞋们最关心的网络实现部分描述的确实非常少，本篇以及后续博客都会主要围绕它所提出的MOTS网络TrackR-CNN进行介绍。

文中提到，TrackR-CNN是基于Mask R-CNN所构建的针对MOTS任务的网络，其实仔细研究就可以发现，这个网络只是基于完整的Mask R-CNN网络，通过多帧并行输入，然后加入了3D卷积层用于增强多帧间的时域信息关联，随后的部分也是保留了Mask R-CNN的bbox回归、分类以及Mask的生成，此外还加入了一个全连接层提取用于数据关联的128维embedding。

Multi-Object Tracking and Segemtation（MOTS）论文解读

这是博主组会PPT上画的大概框架，可以发现结构并不复杂，而且各部分耦合程度不高，各个模块的功能也是十分清晰。

除了网络结构之外，这篇文章中还有一些实验细节值得注意：

Multi-Object Tracking and Segemtation（MOTS）论文解读

它的训练和测试都是在Titan X上进行的，也就是说网络是比较大的，应该需要10G以上的显存才能跑起来，而且博主实测用一块4G显存的960跑Mask R-CNN是没有问题的，而这个网络完全不行，没完没了的OOM。其实想来也很合理，按照代码默认的设定，网络的输入是5张连续帧，网络的参数虽然是共享的，但feature map的数量相比于1张输入增多了5倍，整体需要的显存当然会多很多。

关于网络的代码实现会在日后的博文中详细介绍，谢谢各位道友的支持。

Multi-Object Tracking and Segemtation（MOTS）论文解读

相关推荐