视频超分:（Zooming Slow-Mo）Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

视频超分:（Zooming Slow-Mo）Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution
论文：慢动作缩放：快速准确的一阶时空视频超分
文章检索出处： 2020 CVPR

摘要和简介

时空视频超分辨率任务旨在从低帧率(LFR)，低分辨率(LR)视频中生成高分辨率(HR)慢动作视频。一个简单的解决方案是将其分为两个子任务：视频帧插值(VFI)和视频超分(VSR)。但是，时间插值和空间超分在此任务中是内部相关的，两阶段方法无法充分利用自然属性。另外，他们具有较大规模的模型尺寸，非常耗时。
为了克服这些问题，我们提出了一个单阶时空视频超分框架，该框架可以直接从LFR，LR视频合成HR慢动作视频。而不是合成丢失的LR视频帧。像VFI网络一样，我们首先通过提出的特征时间插值网络对LR帧特征进行时间插值。然后，我们提出了一个可变形的ConvLSTM，以同时对齐和聚合时间信息，以便更好地利用全局时间上下文。最后，采用深度重构网络来预测HR慢动作视频帧。在数据集上进行大量实验表明，该方法不仅可实现更好的性能，而且比最近的两阶段技术（例如DAIN + EDVR/RBPN）**倍以上。

时空视频超分

给定一个LR,LFR视频序列： I L = { I 2 t − 1 L } t = 1 n + 1 \mathcal{I}^L=\{I_{2t-1}^{L}\}_{t=1}^{n+1} IL={I2t−1L}t=1n+1(1,3,…,2n+1)，我们的目标是生成相应的高分辨率序列 I H = { I t H } t = 1 2 n + 1 \mathcal{I}^H=\{I_{t}^{H}\}_{t=1}^{2n+1} IH={ItH}t=12n+1(1,2,…,2n+1)。其中，中间HR帧 { I 2 t H } t = 1 n \{I_{2t}^{H}\}_{t=1}^{n} {I2tH}t=1n(2,4,…,2n)是没有对应的LR输入帧的。我们提出了一个单阶时空超分框架：Zooming Slow-Mo，该框架主要包括四个部分：特征提取，帧特征时间插值模块，可变形的ConvLSTM和HR帧重建。
我们首先使用具有卷积层和 k 1 k_1 k1个残差块的特征提取器从输入视频帧中提取特征图 { F 2 t − 1 L } t = 1 n + 1 \{F_{2t-1}^{L}\}_{t=1}^{n+1} {F2t−1L}t=1n+1，然后使用帧特征插值模块合成LR特征图 { F 2 t L } t = 1 n \{F_{2t}^{L}\}_{t=1}^{n} {F2tL}t=1n。为了更好的利用时间信息，使用可变性的ConvLSTM处理连续特征图： { F t L } t = 1 2 n + 1 \{F_t^L\}_{t=1}^{2n+1} {FtL}t=12n+1。我们提出的可变性ConvLSTM可以同时执行时间对齐和聚合。最后，从聚合的特征图中重建HR慢动作视频序列。

帧特征时间插值

给定从输入LR视频帧 I 1 L I_1^L I1L和 I 3 L I_3^L I3L中提取的特征图 F 1 L F_1^L F1L和 F 3 L F_3^L F3L，要合成丢失的中间LR帧 I 2 L I_2^L I2L和相对应的特征图 F 2 L F_2^L F2L。我们使用特征时间插值函数 f f f(·)，以直接合成中间特征图，插值函数的一般形式可以表示为：其中 T 1 T_1 T1(·)和 T 3 T_3 T3(·)是两个采样函数， Φ 1 \Phi_1 Φ1和 Φ 3 \Phi_3 Φ3是相应的采样参数，H(·)是用于汇总采样特征的混合函数。
为了生成准确的 F 2 L F_2^L F2L， T 1 T_1 T1(·)应该捕获 F 1 L F_1^L F1L和 F 2 L F_2^L F2L之间的前向运动信息，而 T 3 T_3 T3(·)应该捕获 F 3 L F_3^L F3L和 F 2 L F_2^L F2L之间的后向运动信息。但是， F 2 L F_2^L F2L在此任务中不可用于计算前进和后退运动信息。为了缓解此问题，我们使用 F 1 L F_1^L F1L和 F 3 L F_3^L F3L之间的运动信息来近似向前和向后运动信息，具体如下:

其中， g 1 g_1 g1表示几个卷积层，[ , ]表示通道上叠加， α \alpha α和 β \beta β表示两个可学习的1x1卷积核， ∗ * ∗表示卷积操作。

可变形的ConvLSTM

ConvLSTM只能隐式捕获先前状态的运动: h t − 1 h_{t-1} ht−1和 c t − 1 c_{t-1} ct−1，以及当前具有小卷积接受场的输入特征图。因此它处理自然视频中较大运动的能力有限。会导致重建的HR帧遭受恼人的伪影。为了解决大型运动问题并有效利用全局时间上下文，我们将具有可变形对齐方式的状态更新单元嵌入到ConvLSTM中。
其中， g h g^h gh和 g c g^c gc是几个卷积层的函数， h t − 1 a h_{t-1}^{a} ht−1a和 c t − 1 a c_{t-1}^{a} ct−1a分别为对齐的隐藏状态和cell。为了充分探索时间信息，我们以双向方式使用可变形ConvLSTM。我们将时间反转的特征图输入到相同的可变形ConvLSTM中，并将来自前向通过和后向通过的隐藏状态连接起来，作为用于HR帧重构的最终隐藏状态 h t h_t ht。

帧重建与实现细节

为了重建HR视频帧，我们使用一个时间共享的合成网络，该网络将各个隐藏状态 h t h_t ht作为输入去输出相对应的HR帧。它有 k 2 k_2 k2个堆叠的残差块，并具有PixelShuffle子像素放大模块。
帧重建部分损失函数如下：
其中， ϵ = 1 \epsilon=1 ϵ=1x 1 0 − 3 10^{-3} 10−3。在我们的模型中， k 1 k_1 k1=5， k 2 k_2 k2=40。我们随机裁剪一系列大小为32x32的下采样图像块，取出奇索引的4帧作为LFR和LR输入，并取出相应的连续7帧序列作为监督。此外，我们通过随机旋转90，180和270以及水平翻转来执行数据增强。我们在中采用金字塔，级联和可变形（PCD）结构，以采用可变形对齐并应用Adam优化器，在该优化器中，每批次将学习率从4e-4降低到1e-7，批量大小设置为24，并在2个Nvidia Titan XP GPU上进行训练。
数据集我们使用Vimeo-90K作为训练集，包括60,000多个7帧训练视频序列。
我们使用Viemo-90K作为训练集。Vid4和Vimeo测试集被用作评估数据集。为了测量不同方法在不同运动条件下的性能，我们将Vimeo测试集分为中的快动作，中动作和慢动作集，分别包含1225、4977和1613个视频剪辑。我们从原始的中速运动集中删除了5个视频片段，从慢速运动集中删除了3个片段，它们连续具有全黑背景帧，从而导致PSNR达到无限值。我们通过双三次生成LR帧，下采样因子为4，并使用奇数索引的LR帧作为输入来预测相应的连续HR和HFR帧。