VOST技术入门了解
- Yao R, Lin G, Xia S, et al. Video Object Segmentation and Tracking: A Survey[J]. arXiv preprint arXiv:1904.09172, 2019.
- 知乎专栏:深度学习从入门到放弃之CV-video segmentation综述. https://zhuanlan.zhihu.com/p/32247505.
- DAVIS挑战赛: https://davischallenge.org/ .
背景
VOST全称为Video Object Segmentation and Tracking,即视频物体分割与追踪。
物体分割(Object Segmentation)和物体追踪(Object Tracking)是计算机视觉领域的基本任务。物体分割将视频帧中的像素点分为两部分:前景目标(Foreground Target)和背景区域(Background Region),产生物体分割掩膜(Mask)。物体追踪确定视频中目标的精确定位,产生目标边界框(Bounding Box)。物体分割与物体追踪是相辅相成的,密不可分的。
因此,过去大年有大量关于物体分割与追踪的工作,也诞生了广泛的应用,如视频摘要、高分辨率视频压缩、人机交互、自动驾驶等。
六点关键问题
- VOST适用的应用场景?
- VOST适用何种精度的物体表示,如point、superpixel、patch和object等。
- VOST适用何种图像特征?
- 如何建模VOST中物体的动作?
- 怎么预处理和后处理基于CNN的VOST方法?
- VOST的度量适用何种特性的数据集?
主要方法
VOST方法可分为五类:无监督视频物体分割方法、半监督视频物体分割方法、交互视频物体分割方法、弱监督视频物体分割方法和基于分割的追踪方法。如下图所示。
相关数据集
数据集如下图所示,其中表示视频数,表示类别数,表示物体数, 表示标注帧数。尤其是DAVIS数据集,一直在开展目标检测挑战赛。
度量指标
视频物体分割技术有三种度量指标:
- 区域相似性。基于交并比(Intersection over Union)计算预测目标分割掩膜和真实值的相似度:。
- 轮廓精度。目标分割掩膜由一组轮廓点组成,轮廓精度基于这些轮廓点的精准度和召回率计算得分:。
- 时间稳定性。由目标形状上下文的不相似性得到。
视频物体追踪技术度量指标较多,主要分为单一物体和多个物体两类。