VOST技术入门了解

  1. Yao R, Lin G, Xia S, et al. Video Object Segmentation and Tracking: A Survey[J]. arXiv preprint arXiv:1904.09172, 2019.
  2. 知乎专栏:深度学习从入门到放弃之CV-video segmentation综述. https://zhuanlan.zhihu.com/p/32247505.
  3. DAVIS挑战赛: https://davischallenge.org/ .

背景

VOST全称为Video Object Segmentation and Tracking,即视频物体分割与追踪。

物体分割(Object Segmentation)和物体追踪(Object Tracking)是计算机视觉领域的基本任务。物体分割将视频帧中的像素点分为两部分:前景目标(Foreground Target)和背景区域(Background Region),产生物体分割掩膜(Mask)。物体追踪确定视频中目标的精确定位,产生目标边界框(Bounding Box)。物体分割与物体追踪是相辅相成的,密不可分的。

因此,过去大年有大量关于物体分割与追踪的工作,也诞生了广泛的应用,如视频摘要、高分辨率视频压缩、人机交互、自动驾驶等。

六点关键问题

  • VOST适用的应用场景?
  • VOST适用何种精度的物体表示,如point、superpixel、patch和object等。
  • VOST适用何种图像特征?
  • 如何建模VOST中物体的动作?
  • 怎么预处理和后处理基于CNN的VOST方法?
  • VOST的度量适用何种特性的数据集?

主要方法

VOST方法可分为五类:无监督视频物体分割方法、半监督视频物体分割方法、交互视频物体分割方法、弱监督视频物体分割方法和基于分割的追踪方法。如下图所示。

VOST技术入门了解

相关数据集

数据集如下图所示,其中V#V \#表示视频数,C#C \#表示类别数,O#O \#表示物体数, A#A \#表示标注帧数。尤其是DAVIS数据集,一直在开展目标检测挑战赛。
VOST技术入门了解

度量指标

视频物体分割技术有三种度量指标:

  1. 区域相似性。基于交并比(Intersection over Union)计算预测目标分割掩膜MM和真实值的相似度GGMGMG\frac{M\cap G}{M\cup G}
  2. 轮廓精度。目标分割掩膜MM由一组轮廓点c(M)c(M)组成,轮廓精度基于这些轮廓点的精准度PcP_c和召回率RcR_c计算F1F1得分:F1=2PcRcPc+RcF1 = \frac{2P_c R_c}{P_c + R_c}
  3. 时间稳定性。由目标形状上下文的不相似性得到。

视频物体追踪技术度量指标较多,主要分为单一物体和多个物体两类。