Summary - A Transductive Approach for Video Object Segmentation

[paper] [code]

参考博客:https://blog.csdn.net/m_buddy/article/details/106883529

背景

目前流行的大多数 VOS 方法都需要依赖在光流和实例分割等其他领域训练出来的附加模块的信息,这就导致了这些方法在传统基准上无法与其它方法媲美。为此文章提出了一个简单且强大的传导方法来解决这个问题,这个方法不需要额外的子计网络模块,数据,或是专用的网络结构。文中的方法采用了一种基于特征空间的特征相似度的标签传播方法。与其他传播方法不同的是,文中将较为长期的目标特性考虑在内,从而有较好的帧间一致性。TVOS 使用 ResNet50 作为 backbone,在 DAVIS-2017 val set 上达到了 72.3% 的分数,test set 上达到了63.1%,并且能达到 37 fps 的速度。

方法

在训练时,模型首先计算参考帧和当前帧的相似度矩阵,再与参考帧的 label 做点乘得到当前帧的 mask,再计算交叉熵损失。

在 inference 时,先前的方法依赖的是相邻帧,或开头给定的参考帧。而文中的方法使用了从开始帧到当前帧的信息。

Summary - A Transductive Approach for Video Object Segmentation

帧采样方法

使用从开始帧到当前帧的所有信息进行 mask 传导,但为了减少计算量分割网络会对当前帧的邻近帧密集采样,那些时序上相对较远的帧就采样相对稀疏。

Summary - A Transductive Approach for Video Object Segmentation

Performance

TVOS 方法与其他方法在 DAVIS-2017 val数据集上的表现比较如下,无论在分割性能上和速度上都有较大的优势。

Summary - A Transductive Approach for Video Object Segmentation

在 DAVIS-2017 val 数据集上的性能表现:
Summary - A Transductive Approach for Video Object Segmentation
在 DAVIS-2017 上训练,在 Youtube-VOS 上测试,可以看到模型的泛化能力较好:

Summary - A Transductive Approach for Video Object Segmentation

Ablation Experiments

改变选择参考帧数量和方法对结果的影响:

Summary - A Transductive Approach for Video Object Segmentation

总结

文中的主要思想是在 spatio-temporal volume 中利用更多的未标记结构用于视频对象分割。模型通过传导推理得到这种结构,不需要额外的模块、数据集或专门的架构设计。