Multi-Object Tracking and Segemtation(MOTS)论文解读

######12月博客第一篇~2019要结束喽######

多目标分割与跟踪(MOTS)的文章——Voigtlaender P , Krause M , Osep A , et al. MOTS: Multi-Object Tracking and Segmentation[J]. 2019. 从9月份开始断断续续看到现在,中间有学到不少东西,最近算是年末总结一下吧。

文章的内容包括了数据集的构建、任务评估指标的重新定义、baseline网络的简单介绍以及对网络结构研究的实验、网络性能评估以及分析等等,不过,童鞋们最关心的网络实现部分描述的确实非常少,本篇以及后续博客都会主要围绕它所提出的MOTS网络TrackR-CNN进行介绍。

Multi-Object Tracking and Segemtation(MOTS)论文解读

文中提到,TrackR-CNN是基于Mask R-CNN所构建的针对MOTS任务的网络,其实仔细研究就可以发现,这个网络只是基于完整的Mask R-CNN网络,通过多帧并行输入,然后加入了3D卷积层用于增强多帧间的时域信息关联,随后的部分也是保留了Mask R-CNN的bbox回归、分类以及Mask的生成,此外还加入了一个全连接层提取用于数据关联的128维embedding。

Multi-Object Tracking and Segemtation(MOTS)论文解读

这是博主组会PPT上画的大概框架,可以发现结构并不复杂,而且各部分耦合程度不高,各个模块的功能也是十分清晰。

除了网络结构之外,这篇文章中还有一些实验细节值得注意:

Multi-Object Tracking and Segemtation(MOTS)论文解读

它的训练和测试都是在Titan X上进行的,也就是说网络是比较大的,应该需要10G以上的显存才能跑起来,而且博主实测用一块4G显存的960跑Mask R-CNN是没有问题的,而这个网络完全不行,没完没了的OOM。其实想来也很合理,按照代码默认的设定,网络的输入是5张连续帧,网络的参数虽然是共享的,但feature map的数量相比于1张输入增多了5倍,整体需要的显存当然会多很多。

关于网络的代码实现会在日后的博文中详细介绍,谢谢各位道友的支持。