【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

基于光流指导循环神经编码器的视频显著性检测

摘要:

归功于深度卷积神经网络,图像显着性检测已经取得了显著进展,然而,扩展最先进的图像显著性检测器到视频仍然具有挑战性。挑战主要来自物体运动、相机的运动以及视频中对比度的突然变化。在本文中,我们提出了光流引导的循环神经编码器(flow guided recurrent neural encoder FGRNE),一种准确的端到端学习的视频显著对象检测框架。它通过利用光流方面的运动信息LSTM网络的顺序特征进化编码(sequential feature evolution encoding)来增强每帧特征的时间相关性。它可以被视为将任何基于FCN的静态显著性检测器扩展到视频显著性物体检测的通用框架。实验结果验证了FGRNE各部分的有效性,确认了我们提出的方法在DAVIS和FBMS公共基准上明显优于当前最先进的方法。

论文题目:Flow Guided Recurrent Neural Encoder for Video Salient Object Detection

作者:Guanbin Li1 Yuan Xie1 Tianhao Wei2 Keze Wang1 Liang Lin1,3

单位:1Sun Yat-sen University 2Zhejiang University 3SenseTime Group Limited

论文链接

目录

摘要:

1. Introduction

2. Related Work

2.1 静态显著性

2.2 视频显著性

2.3 基于光流的运动估计

3. Flow Guided Recurrent Neural Encoder(光流引导的循环神经编码器)

3.1 Motion Computing and Updating(运动计算与更新)

3.2 Motion Guided Feature Warping(运动指导特征变化)

3.3 Temporal Coherence Feature Encoding(时间相干特征编码)

4. 实验结果

4.1 实验配置

4.1.1 数据集

4.1.2 评估标准

4.1.3 实验细节

4.2 同行比较

4.3 溶解实验

4.3.1 FGRNE的有效性

4.3.2 特征提取部分的敏感度

4.3.3 窗口大小敏感度

4.3.4 主体模型选择的敏感性

5. 与非监督方法的比较

6. 结论


1. Introduction

近几年,由于深度卷积神经网络的发展,静态显著性检测取得重大进步,但即使最好的静态显著性检测到动态检测时都无法维持视觉连续性和时间相关性。认知科学显示,对比度在静态时对显著性有很大影响,但动态时,物体的运动更加吸引人的注意力。这种时域信息以及被利用在显著性物体,其一使用的时图模型,例如将单帧的对比度特征信息或帧间梯度流图与启发式时空域模型的能量函数(可以理解为损失函数)相结合,以期望得到具有帧间一致性的显著图像,这种采用现成的模型进行启发式的预处理得到的低级特征,往往很难应对具有复杂语义对比度和物体运动的视频显著性问题;其二则直接将卷积神经网络应用到视频的显著性检测中,其往往将连续帧输入神经网络,这种简单的帧间整合的时空域模型,不能很好的刻画出视频帧间的动态连续性,且缺乏物体运动信息,不能保持运动连续性。【总:简单加入时域信息,以及简单用卷积网络来处理多帧,效果都不行】

本文提出光流指导的循环神经网络(FGRNE),这是一个端到端的学习框架,可以将任何静态显著性检测器扩展至动态显著检测。它通过利用光流方面的运动信息来引导特征变形LSTM网络的顺序特征进化编码来改进每帧的特征,以增强每帧特征的时间相关性,最后输出的特征图作为编码后的特征,会被输送到主网络进行显著性推断,此外我们的FGRNE模型还涉及另一个LSTM模块来改善具有大间隔的帧对(frame pair)的光流估计。我们的FGRNE模型包括三部分:运动计算与更新,光流指导特征变化以及进行时间相干特征编码的主网络。

本文主要有三点贡献:

  1. 引入了光流指导的循环神经编码器框架来提高各帧特征的时间相关性,能拓展静态显著性检测器用于视频显著性
  2. 整合光流网络评估每一帧的运动,更在特征变化中用于补偿物体的运动
  3. 利用ConvLSTM来进行顺序特征编码,可以捕捉对比度特征在时域的变化,而且是对特征变化的补充

2. Related Work

2.1 静态显著性

显著性物体检测可以分为基于低级特征的自底向上的方法和基于高级知识的自上而下的方法。最近几年深度卷积神经网络是主要的研究方向,该方向又可以分为基于区域的深度神经网络,以及端到端的全卷积神经网络。基于区域的方法将图像分成多个区域,然后对每一个区域进行独立的特征提取以及显著性推断,冗余的特征提取和存储造成时间和空间的大量花费。因此需要端对端的方法,可以直接输入整张图片,利用特征共享机制一次网络前向传播操作就可以产生每个区域的多级特征,取得了良好的效果,也是当前最先进方法的组成基础。

我们的方法能拓展静态显著性检测器用于视频显著性。

2.2 视频显著性

与静态相比,动态显著性由于时空域模型的复杂度以及缺少良好标注的数据集而更具有挑战性。早期的一些工作可以看作是简单的将时域特征加入静态显著性模型之中,最近和值得注意的工作通常将视频显着性检测表示为连续帧上的时空域上下文建模问题,并将能量函数与手工规则结合起来以鼓励输出显着性图的空间平滑性和时间一致性。然而这些非监督模型都依赖于手动选取的低级特征来进行启发式显著性推断,因此不能处理要求先验知识以及语义推断的复杂视频显著性问题。尽管有利用深度卷积神经网络与条件随机场相结合来提高时间一致性的方法,但其计算花费太大。此外有将连续帧连接在一起作为输入,利用静态显著性检测的深度卷积神经网络,来计算显著性,但由于卷积神经网络没有记忆功能,不能反应视频的连续变化,加上这种方法缺乏物体运动信息,因此难以应对剧烈的物体运动情况。【总:现有一些方法的计算复杂,效果不好】

本文将时域信息从特征的层面去考虑,而不是从原始的输入层面,结合了LSTM网络进行连续特征进化编码。这种端到端的训练也使得推断过程更加高效,此外,我们的模型还可以与图论的预处理技术,利于CRF等结合来进一步提升性能

2.3 基于光流的运动估计

光流评估了相邻帧之间每个像素的移动,其广泛用于大量的视频分析任务。传统的方法主要使用变分公式,其主要用于处理小位移,且其巨大的计算量限制了其效率。最近,深度学习的方法被用光流分析,其中最有代表性的是FlowNet,Flownet采用CNN来进行高效光流推断。利用FlowNet与深度学习框架来提升视频特征的时间连续性,为很多视频综合任务带来了显著提升,例如视频识别,物体识别,视频物体分割等。【总:光流很有用,我们也用,还要重用】

现有的光流要么是作为辅助的运动特征,要么是作为预处理的规则来提高时间连续性特征。我们使用光流来使特征在帧间变化,同时补偿物体运动带来的变化。然而,我们的运动光流是动态更新的,特征变化的结果用于时域特征编码而不是特征整合。我们是在时空域特征学习中第一个循环神经编码器中整合光流的,也验证了其卓越性能。

3. Flow Guided Recurrent Neural Encoder(光流指导的循环神经编码器)

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

如图,我们的FGRNE结构主要包括三个模块:运动计算模块与更新运动指导特征变化时间一致性特征编码

首先,我们计算当前帧的前k帧的光流图,每帧的光流图都以相反顺序输入给一个LSTM进行运动优化。其次,得到的每一个时间步对应的优化后的光流图用于指导相应特征变化。最后,变化后的特征在一次输入另一个LSTM网络进行时间一致性特征编码,最终产生特征F,再对F进行回归得到输出的显著图,即图中的Pixel-wise Classifier过程。

3.1 Motion Computing and Updating(运动计算与更新)

由于FlowNet最初是根据成对数据进行训练的连续帧,可能不能准确反映长时间间隔的两帧之间的运动关系。 直觉上,越接近的两张帧得到的光流图更准确。 我们可以逐渐地采用接近的框架的光流图来改进更大的时间间隔的光流图。因此,我们使用ConvLSTM以及FlowNet共同实现反向的学习与优化。【说明,根据(i,i-1),(i,i-2)的光流来优化(i,i-2)的光流图,因此反向】

X1, X2, ..., Xt 表示 ConvLSTM的输入,H1, H2, ..., Ht 表示其隐藏状态,输入率it,遗忘率ft以及输出率ot, 整体公式如下,其中 ‘∗’ 表示卷积操作, ‘◦’ 表示哈达玛乘积,即点对点乘积,σ(·) 表示sigmoid函数:

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

隐藏状态H就是编码更新的光流图,再经过1x1的卷积来得到优化的光流图RO:

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

3.2 Motion Guided Feature Warping(运动指导特征变化)

给定光流图RO与对应的特征图N,对于特征图的每一个通道,W( )相当于在每个RO期望的位置对特征图进行双线性插值。

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

3.3 Temporal Coherence Feature Encoding(时间相干特征编码)

尽管特征变化操作能够弥补物体或者相机运动的特征误差,其仍然不能刻画视频帧的连续的动态变化。基于以上考虑,我们利用另一个ConvLSTM进行顺序特征编码:

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

状态更新函数如上,不断地更新,最后一次的隐藏状态就是我们的最终状态编码。

4. 实验结果

4.1 实验配置

4.1.1 数据集

我们在两个公开数据集上评估我们的方法: Freiburg-Berkeley Motion Segmentation (FBMS) 数据集 , 以及 DAVIS 数据集。FBMS数据集包含58个视频,720张稀疏标记的帧。DAVIS是视频物体分割的数据集,包含50个高质量全HD的视频序列,有3455张密集标注的像素级别的帧。

SegTrack2 V2是在SegTrack数据集上扩展得来的,包含14个关于鸟类、动物、汽车以及人的视频,1066张标注的帧。我们使用三者共同作为训练集,在前两者上做评估

4.1.2 评估标准

类似于图像的显著性目标检测,我们采用精确召回曲线(PR)、max F-measure和平均绝对误差(MAE)作为评价指标。

4.1.3 实验细节

我们提出的FRGNE在Mxnet框架中运行。FGRNE能够与任何全卷积神经网络的静态显著性检测模型兼容,我们选取当前比较先进的深度监督显著性物体检测模型DSS,以其公开的训练模型作为基准,进行比较以及溶解实验。

训练时图片大小resize成256x512的大小,使用momentun=0.9的SGD梯度下降算法,学习率初始值为2.5e-4,衰减为0.9每8k个训练循环。损失函数与静态检测模型主网络一致,DSS采用图像级类平衡交叉熵损失。帧数k的大小受限于存储的大小,本实验中k设置为5。

4.2 同行比较

我们比较我们的方法(FGRNE)与9个最先进的方法:MST, MB+ , RFCN , DHSNet , DCL, DSS, SAG, GF 和 DLVSD。前六个为静态显著性检测领先水平的方法,后三个为视频显著性检测的方法。为公平比较,我们要么自己重新在FGRNE的训练集上进行fine-tune,要么使用作者提供的显著图。

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】
显著性检测性能的视觉比较,可以发现我们的结果最接近真图
【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】
PR曲线的比较,在DAVIS以及FBMS数据集上,我们的FGRNE明显优于其他的方法
【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】
MAE以及max-F measure的比较,我们的方法均优于其他方法

4.3 溶解实验

4.3.1 FGRNE的有效性

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

4.3.2 特征提取部分的敏感度

我们分别实验了Conv3-3,Conv4-3和Conv5-3的输出特征,对其进行特征编码,发现FGRNE能够改善所有尺度上的时间一致性,分别得到maxF值为0.777,0.789,0.798。采用从Conv5-3提取的特征进行编码得到的效果是最好的。

4.3.3 窗口大小(帧数)敏感度

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

4.3.4 主体模型选择的敏感性

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

5. 与非监督方法的比较

【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

6. 结论

在本文中,我们提出了一个准确的端到端框架,用于视频显著性物体检测。 我们的提出的光流引导的循环编码器旨在改进深度特征表示的时间相干性。它可以被视为一个扩展的通用框架:任何基于FCN的静态显著性检测器都可以对视频显着对象进行检测,并且可以很容易地受益于未来基于图像的显着对象检测方法的改进。而且,我们专注于学习增强特征编码,它可以很容易地扩展到其他应用中比如视频分析,值得探索。