VOST技术入门了解

Yao R, Lin G, Xia S, et al. Video Object Segmentation and Tracking: A Survey[J]. arXiv preprint arXiv:1904.09172, 2019.

知乎专栏：深度学习从入门到放弃之CV-video segmentation综述. https://zhuanlan.zhihu.com/p/32247505.

DAVIS挑战赛: https://davischallenge.org/ .

背景

VOST全称为Video Object Segmentation and Tracking，即视频物体分割与追踪。

物体分割（Object Segmentation）和物体追踪（Object Tracking）是计算机视觉领域的基本任务。物体分割将视频帧中的像素点分为两部分：前景目标（Foreground Target）和背景区域（Background Region），产生物体分割掩膜（Mask）。物体追踪确定视频中目标的精确定位，产生目标边界框（Bounding Box）。物体分割与物体追踪是相辅相成的，密不可分的。

因此，过去大年有大量关于物体分割与追踪的工作，也诞生了广泛的应用，如视频摘要、高分辨率视频压缩、人机交互、自动驾驶等。

六点关键问题

VOST适用的应用场景？
VOST适用何种精度的物体表示，如point、superpixel、patch和object等。
VOST适用何种图像特征？
如何建模VOST中物体的动作？
怎么预处理和后处理基于CNN的VOST方法？
VOST的度量适用何种特性的数据集？

主要方法

VOST方法可分为五类：无监督视频物体分割方法、半监督视频物体分割方法、交互视频物体分割方法、弱监督视频物体分割方法和基于分割的追踪方法。如下图所示。

VOST技术入门了解

度量指标

视频物体分割技术有三种度量指标：

区域相似性。基于交并比（Intersection over Union）计算预测目标分割掩膜 $M$ 和真实值的相似度 $G$ ： $\frac{M\cap G}{M\cup G}$ 。
轮廓精度。目标分割掩膜 $M$ 由一组轮廓点 $c(M)$ 组成，轮廓精度基于这些轮廓点的精准度 $P_c$ 和召回率 $R_c$ 计算 $F1$ 得分： $F1 = \frac{2P_c R_c}{P_c + R_c}$ 。
时间稳定性。由目标形状上下文的不相似性得到。

视频物体追踪技术度量指标较多，主要分为单一物体和多个物体两类。

背景

六点关键问题

主要方法

相关数据集

度量指标

相关推荐