RANet:Ranking Attention Network for Fast Video Object Segmentation

paper:https://arxiv.org/abs/1908.06647

code:https://github.com/Storife/RANet

1 Introduction

当前Semi-VOS主要基于online learning,mask propagation,以及pixel-level matching,下面对以下几种思路做一些简要的分析:

  • 基于在线学习(online learning):主要代表作有OSVOS,OnAVOS,他们通过直接在给定的第一帧mask上微调,“记住”要分割的目标。这些方法比较有效,缺点是时间长。但是好处是,online learning技术几乎可以用于所有方法上用于提升算法性能。
  • 基于传播(mask propagation):主流方法有Masktrack,RGMP等等,即在预测当前帧的时候,加入了之前帧的信息,最常用的也是最简单的方法是在网络中加入上一帧的mask预测结果。这种方法能够很好地适应连续地、复杂地变化,如物体的旋转等。但是当出现遮挡情况时会对算法有较大影响。为了解决这一影响,Masktrack加入了online learning技术,RGMP将第一帧的特征和当前帧特征级联,这样能在跟丢的情况下找回目标。
  • 基于匹配(matching):代表方法主要有PML,Videomatch等。他们基于Siamese构架,提取第一帧和当前帧特征,做像素级别的匹配。由于是将目标拆分为pixel进行匹配,所以基于matching的方法对物体的形变、遮挡有较好的鲁棒性。但是当物体出现新的视觉表征的时候,比如旋转到背面,就会出现无法匹配的问题。

通过以上讨论,作者发现matching和propagation的方法一定程度上是互补的,一个注重视觉感官信息,一个是时序信息。而online learning也是一种视觉感官上的记忆,同时兼顾了不同video上的domain自适应,在微调后对特定物体能提取更好的特征。但是它相比matching方法更耗时一些。RANet在设计时同时考虑到了速度和性能,自然地选择了结合matching和propagation方法。

作者提出了一种方法:

将matching和propagation都整合进一个框架中,采用encoder-decoder结构,以端到端的方式学习像素级匹配、掩码传播和分割。如下图c所示。

RANet:Ranking Attention Network for Fast Video Object Segmentation

 孪生网络被用作编码器以提取像素级匹配特征,而金字塔形的解码器则用于同时进行掩模传播和高分辨率分割。

如何以有意义的方式连接像素级匹配编码器和基于传播的解码器?

由于编码器会生成动态的前景和背景相似度图,故无法将其直接馈入解码器。 为此,作者提出了一个排名注意模块(RAM,请参见图1(c)),以便根据其对细粒度VOS性能的重要性来重新组织(即,对其进行排名和选择)相似性图。 拟议中的排名注意网络(RANet)可以更好地利用像素级相似性图用于细粒度的VOS,从而大大减轻了以前基于匹配或传播的方法的弊端。

贡献:

  1. 以端到端的方式集成了matching和propagation框架的优势,并为半监督VOS任务开发了实时网络。
  2. 提出了一种新颖的“Ranking attention Module”,用于根据其对细化VOS性能的重要性对合适的特征图进行排名和选择。
  3. 在DAVIS16 / 17数据集上进行的实验表明,与以前的VOS方法相比,所提出的RANet能够以实时速度获得竞争甚至更好的性能。 所提出的RANet甚至仅使用静态图像进行训练也可以获得准确的VOS结果。

2 Proposed Method