摘要

在本文中，我们提出了一种新颖的MoNet模型，该模型从帧表示学习和分割细化两个方面深入挖掘运动线索来提高视频对象的分割性能。具体而言，MoNet利用计算出的运动提示（即光流）通过对齐和整合来自其邻居的表示来增强目标帧的表示。 新的表示形式为分割提供了有价值的时间上下文 ，并提高了对各种常见污染因素的鲁棒性，例如运动模糊，外观变化和视频对象变形。 此外，MoNet可以解决运动不一致的问题，并将这种运动提示转换为前景/背景，然后才能避免因混淆实例和嘈杂区域而分散注意力。通过引入距离变换层，MoNet可以有效分离运动不固定的实例/区域并彻底完善分割结果。将建议的两个运动开发组件与标准分割网络集成在一起，MoNet在三个竞争基准数据集上提供了最新的性能。

1. Introduction

给定目标对象在第一帧中的分割掩码，半监督视频对象分割（VOS）的目的是自动在随后的视频帧中分割指定的对象。最近，基于CNN的方法[3、5、13、15、26]取得了显着进步，这些方法通常可以分两个阶段解决任务：离线训练分割模型并在线对测试视频进行微调。
传统上，基于CNN的方法[3，26]忽略相邻帧之间的时间信息，并将VOS转换为静态图像分割问题。 这种逐帧方法会遭受很多不受约束的视频条件（例如变形，缩放比例变化和运动模糊）的困扰， 这些条件会导致目标对象从初始帧到后续帧的外观发生较大变化（请参见图1中OSVOS的结果[3] 独立处理每个帧）。 此外，在后续帧中出现具有令人迷惑外观的新实例可能会使VOS模型无法区分目标对象和分散注意力的对象（请参见图1的底部示例）。 说得好有道理啊
MoNet: Deep Motion Exploitation for Video Object Segmentation
图1.在来自DAVIS [21]的两个视频序列上，提议的MoNet，OSVOS [3]和MSK [15]的分割结果（红色蒙版），其中包括VOS的几个典型挑战，例如外观变化，比例变化（顶部示例）和令人困惑的实例（底部示例）。 MoNet充分利用了来自相邻帧的运动提示，并很好地应对了这些挑战，与最新的OSVOS和MSK相比，可产生更好的分割结果。以4倍变焦获得最佳彩色色彩。
为了解决这些挑战，利用运动提示（即这项工作中的光流），因为沿时域的附加信息对于VOS模型来说是必要的，以增强分割的一致性和质量。一种简单的方法是将分割模型应用于光流场[15，29]。但是，在这种情况下， 模型的性能将受到流量估计质量的限制 （请参见图1中MSK [15]将RGB图像和光流作为输入的结果）。 为了更有效地利用运动线索，[5，11]引入了可学习的网络来从光流中提取运动特征以补充外观特征，但是他们分别学习了这两种类型的特征，这限制了它们对各种视频挑战的鲁棒性。 与简单地将运动视为额外的输入或外部功能不同，这项工作试图为基于CNN的VOS更好地利用和利用此类信息线索提供新的见解。
首先，我们利用运动提示来增强目标框架的学习表现形式。物体外观和比例的剧烈变化可能会给分割整个序列的目标物体带来很大的困难（请参见图1的顶部示例），因为在线微调只能访问单个标记的帧，而不会预见到这种变化。 解决这一难题的有效方法是利用有关目标对象的连续运动信息。 因此，我们建议将来自相邻帧的特征集成到目标帧的表示中。– 相邻几帧深度相关
受视频对象检测成功的启发[37，38]，我们建议通过具有双线性插值的扭曲层，使用光流来调节相邻帧的特征，使用光流来调节其集成度。与直接从运动域提取帧表示[5、11]不同，运动对齐的表示包括必要的外观信息和有价值的时间上下文，用于标准化未知变化，从而有益于VOS结果的质量和时间一致性 预处理————双线性差值，并叠加相邻帧目标特征
其次，我们利用运动线索来识别运动不一致的实例/区域，并使其外观混乱，将目标对象从干扰中分离出来，并提高分割效果。这对于分割视频中的对象很重要，因为新的和意外的类似实例可能会出现在后续帧中，这通常会混淆现有的VOS方法并使之失败（图1的底部示例）。为了检查不一致的运动模式，我们提出了一个距离变换（DT）层，以将具有显着运动的目标对象与背景运动分开。
DT层使用最小屏障距离（MBD）[6]测量光流中每个位置与背景运动之间的连通性，并将光流映射到简单的前景/背景蒙版中。作为一种先验运动，将遮罩与分段预测结合起来以细化结果。优于使用完全监督的基于CNN的模型来学习运动模式[29]，DT层没有gt的光流来学习CNN模型，并且更简单，但可提供还不错的性能（请参见表中的结果） 7）
拟议的两个组件被集成到一个名为MoNet的可训练模型中，该模型可深入利用视频中的运动提示，因此比最新的VOS方法更好地解决了具有挑战性的无限制条件。我们在三个基准数据集（即DAVIS [21]，Youtube-Objects [10、23]和SegTrack-v2 [18]）上对MoNet进行了广泛的评估，并观察了各种metrics的优异性能。 --扭曲层和DT层两个训练网络的创新点
本文的主要贡献是三方面的。
•我们重新关注用于解决VOS的运动提示，并通过开发MoNet模型来促进其开发。多个数据集上的结果证实了更优雅地利用运动提示的好处。
•我们建议通过在时域内整合运动对齐的特征来利用运动提示来增强帧表示，这对于视频对象检测是有效的，但对VOS来说是新的。
•我们开发了一种直接从运动线索中直接提取分割的有效方法，该方法非常适合VOS的独特要求，但被现有解决方案所忽略。 提取的先验可以过滤出分散注意力的实例/区域并纯化细分

2. Related Work

无监督的VOS方法旨在通过利用视觉显着性[8，33]和运动提示[16，20]来分割没有人为输入的主要对象。–显著性检测最近，Tokmakov等人。 [29]采用合成视频数据来学习一个模型，以从光流中分割出运动物体。 Jain等。 [11]提出了一种两流CNN来从输入帧和光流中提取特征以联合分割对象。基于[29]，由[30]引入循环单元以随时间传播空间信息。–运动信息提示？双input
这项工作集中在半监督VOS上，其中在第一帧上给出了注释。除了一些通过最小化在不同约束条件下定义的能量函数对对象进行分段的经典方法[19，22，31]，最近的VOS方法也从采用CNN中受益匪浅。例如，[3]提出使用CNN独立处理每个帧而没有任何时间信息。 Perazzi等。 [15]直接推断分割是由光流产生的。 Jampani等。 [12]提出了一个时间双边网络，将先前的掩码传播到当前帧。 [13]采用了三分支网络不同的细分结果。在[5]中，对象分割和光流的相互特征以不同的比例级联以相互促进。 Yoon等。 [26]将视频对象分割表述为与后续帧中第一帧的查询对象匹配。但是，运动提示尚未得到充分利用。与其使用运动线索作为额外的输入[15、29]或补充功能[5、11]，我们深入研究了它们在帧表示学习和分段细化中的利用。

3. The Proposed Model

3.1. Overview

所提议的MoNet的总体架构如图2所示。为了学习利用运动线索，MoNet接收了三重输入，包括目标帧和两个相邻帧。
t，t-n,t+n,n<T 在预定的时间邻域内随机选择两个相邻帧。三重输入被传递到分段网络[4]和光流估计网络[9]，输出其外观特征和光流。

MoNet: Deep Motion Exploitation for Video Object Segmentation
图2.提议的MoNet的体系结构。目标帧It及其两个相邻帧Itt m和It + k分别传递到分段网络[4]和FlowNet [9]。将来自相邻帧的特征Ftt m和Ft + k对齐（通过它们相应的光流Mtt m和Mt + k），并与目标帧特征Ft组合，得到新的特征Fˆt。基于Fˆt，两个分离的分支将目标帧分为前景和背景蒙版。距离变换层将光流映射为先验运动，然后将其与前景/背景蒙版融合以生成精细的对象分割。彩色效果最佳。
!!
MoNet不会直接合并三个输入帧的特征，而是先利用它们的光流来对齐相邻帧的特征，然后将它们集成到目标帧特征中。利用合并的功能，分割模型将目标帧分离为前景蒙版和背景蒙版。为了减轻分割模型对混乱实例的敏感性（例如，图2中右侧的焦油骆驼和左侧的类似实例），MoNet利用运动提示来过滤其运动分散注意力的实例/区域通常与目标对象的移动不一致。 它引入了距离变换层，以将估计的光流映射到先验运动，从而提取具有不同运动的运动前景。 MoNet在优化其前景/背景分割结果之前会融合此类运动。

3.2. Aligning Feature with Motion Cues – 使特征与运动提示对齐

从单个帧中学习到的特征无法表示目标对象的时间变化，这会由于丢失重要的时间信息而限制了VOS性能。为了对给定帧It的短时动态建模，我们建议在It的预定义邻域中包括两个随机选择的相邻帧Itt m和It + k的特征。 Itt m和It + k的功能通过嵌入临时上下文来补充和增强It的功能。 但是，直接汇总这些功能并不能如预期的那样改善VOS性能（请参见表6中的结果）。 因为在这些特征中时间上下文的空间位置始终与It的位置不一致。 受视频对象检测成功的启发[37，38]，我们建议通过利用运动线索将相邻帧Itt m和It + k与It的特征对齐，然后再将它们组合在一起

形式上，让Ftt m表示分段网络输出的帧Itt m的特征，Fˆttm表示其对齐特征w.r.t.frame It。将Ftt m（x′，y′）与Fˆttm（x，y′）对齐需要在Itt m中的位置（x，y）和Itt m中的（x′，y′）对应。光流图Mtt m提供了所需的位移（u，v）从其中的（x，y）指向Itt m中的（x′，y′），利用（u，v），可以用双线性插值法计算出对齐特征Fˆttm（x，y）
MoNet: Deep Motion Exploitation for Video Object Segmentation
上面的方程被实现为一个变形层
特征对齐后，学习三个信道加权向量，将其中的特征Ft与Fˆttm和Fˆt+k合并，如下所示：

其中⊗表示信道标量矩阵乘法。
等式（1）沿着通道维度动态组合特征，为不同的通道分配适当的权重。经过对齐和聚合后，Fˆt包含了各种定制的时间信息，提供了丰富的表示，有效地扩展了分割分类器的时域接受域。

3.3. Distance Transform Layer !!

在对视频序列中的目标对象进行分割时，分割模型可能会受到一些混淆因素的干扰（例如，来自同一类别的实例、模型在离线训练期间看到的相似实例以及视觉上相似的区域）而产生错误的位置预测。通常，这种混乱的姿态/区域的运动与目标物体的运动不一致。为了利用这种运动线索来消除这些干扰的负面影响，我们建议对估计的光流图M进行基于MBD的距离变换[28]，以获得相对干净和鲁棒的运动先验。
这种先验有助于识别具有不同运动模式的运动物体，并将运动模式不一致的实例/区域作为识别的运动对象。
MoNet: Deep Motion Exploitation for Video Object Segmentation
图3。MPNet[29]与DT层在光流中运动目标提取的比较。虽然MPNet提供了关于运动物体的更清晰的细节，但它很容易受到光流中微小运动的影响。相比之下，DT层对复杂的运动更具鲁棒性，并且能够提供更平滑和更好的提取对象。最好的颜色。
形式上，对于M中的每个空间位置（即像素）l，连接到l的路径πl=hπl（1），····，πl（n）i定义为其空间相邻位置的序列集合，其中n是考虑的邻居的数目，取典型值4。M上的距离变换D（·）是将每个位置l映射到距离值w.r.t。目标集S具有最小路径代价：
MoNet: Deep Motion Exploitation for Video Object Segmentation
其中P（·）表示路径代价函数，S表示一组预定义的位置。qs，l表示连接S和l的所有路径的集合。
特别是使用最小路径[6]计算其鲁棒性[6]的鲁棒性。位置l处基于MBD的路径成本函数定义为
MoNet: Deep Motion Exploitation for Video Object Segmentation
式中，kM（·）k是一个位置的流量大小，单位为M。
我们使用FastMBD算法[36]来求解Eqns中基于MBD的DT。（2）和（3）近似，以光栅扫描或逆光栅扫描顺序访问M的每个位置l。在每个扫描步骤中，只有l的一半相邻位置有助于更新距离图D（l）：
MoNet: Deep Motion Exploitation for Video Object Segmentation
其中h表示l和πh的相邻位置，l表示结合πh和从h到l的连接的路径。路径代价函数P（πh，l）定义为式中，U（h）和V（h）分别表示kM（πh）k的最大值和最小值。方程的计算。（5）通过缓存所有位置的U和V是高效的。
我们在MoNet中实现了FastMBD算法作为距离变换层。DT层以流图M为输入，输出距离图D，它测量M中每个位置到预定义S的连通性。由于我们的目标是将目标物体运动与杂乱背景运动分开，通常假设背景运动通常与光流边界相连，我们定义S包括沿光流M边界的位置。
对于每个M，DT层访问M的所有位置两次，即一个光栅和另一个逆光栅扫描，这足以在没有显著计算开销的情况下良好地执行。对于给定的帧，我们将距离映射dtm和Dt+k从Mt m和Mt+k平均化为最终Dt。路径成本（等式）。（5）根据流量大小计算，其中路径成本越大，表示位置l和S中的位置之间的运动不一致性越大。因此，Dt（l）值越大，l对应背景运动的概率越低。也就是说，距离图D为前景对象提供了一个抽象的运动先验。
考虑到光流的复杂性，MP - Net[29]学习了一个复杂的编解码网络来从光流中提取运动目标。在本文中，我们使用DT层以一种更简单的方式来解决这个问题。图3定性地比较了DT层与基于CNN的MPNet[29]在分割前景移动对象方面的差异。利用地面真实光流对合成序列进行训练。因此，它提供了关于运动物体的更清晰的细节，但容易受到微小运动的影响。相比之下，DT层对光流中的各种运动复杂性更为鲁棒，并且提供更平滑和更好的运动先验。此外，DT层是完全无监督的。

3.4. Object Segmentation

基于对齐特征，设计了两个分割分支[2]，分别预测前景和背景的掩模。为了弥补运动先验中可能存在的不可恢复的缺陷（因为它完全来源于没有上下文信息的估计光流），我们使用两个互补分类器来整合来自DT层的运动先验，它们分别响应正常和反向运动先验。
形式上，对对齐的特征Fˆ和运动进行最终预测，如下所示： MoNet: Deep Motion Exploitation for Video Object Segmentation
其中Cs（F，Dˆ）是分段分类器，Cf（F，WˆF）和Cb（F，Wˆb）分别表示前景和背景预测分支，参数Wf和Wb。
上述分割分类器Cs是通过最小化以下平衡二进制交叉熵损失来训练的[35]：其中Y是地面真实，分为背景标签地图Y和前景标签地图Y+。β=| Y |/（| Y |+| Y+|）。|Y |和| Y+|分别表示Y和Y+中的标签数量。W表示整个网络的参数，包括Wf、Wb和图2中分段网络的参数。 MoNet: Deep Motion Exploitation for Video Object Segmentation

3.5. Implementation Details我们专注于利用动作线索来提高VOS的性能。因此，有关分段架构的广泛工程设计不在本工程范围内。我们使用成熟的基于VGG16[27]的DeepLab Architecture[4]作为主干分段网络，无需进一步修改。每个分割分支采用atrus空间金字塔池结构[4]。基于CNN的FlowNet21[9]用于在线估计实际流量。给定帧的采样邻域设置为3帧。对于每个三重输入，conv5 3特征被提取并通过Eqn对齐。（1）一。

在视频序列培训之前，我们使用PASCAL VOC 2012数据集的静态图像对分段网络进行预训练[7]。在视频序列离线训练阶段，首先利用特征对齐对预训练模型进行微调。方程中的wt m，wt和wt+k。（1）初始化为0、1和0。在DAVIS的训练集上，用SGD对具有Fg/Bg分支的分割网络进行训练，学习率为5×108。然后用方程估计运动先验。（4）用于训练最终的脱机模型。对于10K次迭代，学习速率设置为1×108。
为了平衡精度和运行速度，我们采用精简版的FlowNet2，即FlowNet2 css ft-sd来估算光流。
当对特定的视频序列进行推理时，该模型从离线的预训练模型在线微调到第一帧，并直接应用于后续帧。考虑到相邻帧的随机性，我们得到了相邻帧的随机范围。
然后我们平均预测到目标帧的最终分段。分割结果由完全连接的CRF进行后处理[17]。
我们提议的MoNet由公共可用的Caffe库实现[14]。所有的实验和分析都是在Nvidia Titan X GPU和6核Intel i7-4930K CPU 3.4GHz上进行的。

MoNet: Deep Motion Exploitation for Video Object Segmentation

摘要