paper：https://arxiv.org/abs/1908.06647

code：https://github.com/Storife/RANet

1 Introduction

当前Semi-VOS主要基于online learning，mask propagation，以及pixel-level matching，下面对以下几种思路做一些简要的分析：

基于在线学习（online learning）：主要代表作有OSVOS，OnAVOS，他们通过直接在给定的第一帧mask上微调，“记住”要分割的目标。这些方法比较有效，缺点是时间长。但是好处是，online learning技术几乎可以用于所有方法上用于提升算法性能。

基于传播（mask propagation）：主流方法有Masktrack，RGMP等等，即在预测当前帧的时候，加入了之前帧的信息，最常用的也是最简单的方法是在网络中加入上一帧的mask预测结果。这种方法能够很好地适应连续地、复杂地变化，如物体的旋转等。但是当出现遮挡情况时会对算法有较大影响。为了解决这一影响，Masktrack加入了online learning技术，RGMP将第一帧的特征和当前帧特征级联，这样能在跟丢的情况下找回目标。

基于匹配（matching）：代表方法主要有PML，Videomatch等。他们基于Siamese构架，提取第一帧和当前帧特征，做像素级别的匹配。由于是将目标拆分为pixel进行匹配，所以基于matching的方法对物体的形变、遮挡有较好的鲁棒性。但是当物体出现新的视觉表征的时候，比如旋转到背面，就会出现无法匹配的问题。

通过以上讨论，作者发现matching和propagation的方法一定程度上是互补的，一个注重视觉感官信息，一个是时序信息。而online learning也是一种视觉感官上的记忆，同时兼顾了不同video上的domain自适应，在微调后对特定物体能提取更好的特征。但是它相比matching方法更耗时一些。RANet在设计时同时考虑到了速度和性能，自然地选择了结合matching和propagation方法。

作者提出了一种方法：

将matching和propagation都整合进一个框架中，采用encoder-decoder结构，以端到端的方式学习像素级匹配、掩码传播和分割。如下图c所示。

孪生网络被用作编码器以提取像素级匹配特征，而金字塔形的解码器则用于同时进行掩模传播和高分辨率分割。

如何以有意义的方式连接像素级匹配编码器和基于传播的解码器？

由于编码器会生成动态的前景和背景相似度图，故无法将其直接馈入解码器。为此，作者提出了一个排名注意模块（RAM，请参见图1（c）），以便根据其对细粒度VOS性能的重要性来重新组织（即，对其进行排名和选择）相似性图。拟议中的排名注意网络（RANet）可以更好地利用像素级相似性图用于细粒度的VOS，从而大大减轻了以前基于匹配或传播的方法的弊端。

贡献：

以端到端的方式集成了matching和propagation框架的优势，并为半监督VOS任务开发了实时网络。

提出了一种新颖的“Ranking attention Module”，用于根据其对细化VOS性能的重要性对合适的特征图进行排名和选择。

在DAVIS16 / 17数据集上进行的实验表明，与以前的VOS方法相比，所提出的RANet能够以实时速度获得竞争甚至更好的性能。所提出的RANet甚至仅使用静态图像进行训练也可以获得准确的VOS结果。

RANet：Ranking Attention Network for Fast Video Object Segmentation

1 Introduction

2 Proposed Method

RANet：Ranking Attention Network for Fast Video Object Segmentation

1 Introduction

2 Proposed Method

相关推荐