视频超分:(Zooming Slow-Mo)Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution
论文:慢动作缩放:快速准确的一阶时空视频超分
文章检索出处: 2020 CVPR
摘要和简介
时空视频超分辨率任务旨在从低帧率(LFR),低分辨率(LR)视频中生成高分辨率(HR)慢动作视频。 一个简单的解决方案是将其分为两个子任务:视频帧插值(VFI)和视频超分(VSR)。但是,时间插值和空间超分在此任务中是内部相关的,两阶段方法无法充分利用自然属性。 另外,他们具有较大规模的模型尺寸,非常耗时。
为了克服这些问题,我们提出了一个单阶时空视频超分框架,该框架可以直接从LFR,LR视频合成HR慢动作视频。 而不是合成丢失的LR视频帧。像VFI网络一样,我们首先通过提出的特征时间插值网络对LR帧特征进行时间插值。 然后,我们提出了一个可变形的ConvLSTM,以同时对齐和聚合时间信息,以便更好地利用全局时间上下文。 最后,采用深度重构网络来预测HR慢动作视频帧。 在数据集上进行大量实验表明,该方法不仅可实现更好的性能,而且比最近的两阶段技术(例如DAIN + EDVR/RBPN)**倍以上。
时空视频超分
给定一个LR,LFR视频序列: I L = { I 2 t − 1 L } t = 1 n + 1 \mathcal{I}^L=\{I_{2t-1}^{L}\}_{t=1}^{n+1} IL={I2t−1L}t=1n+1(1,3,…,2n+1),我们的目标是生成相应的高分辨率序列 I H = { I t H } t = 1 2 n + 1 \mathcal{I}^H=\{I_{t}^{H}\}_{t=1}^{2n+1} IH={ItH}t=12n+1(1,2,…,2n+1)。其中,中间HR帧 { I 2 t H } t = 1 n \{I_{2t}^{H}\}_{t=1}^{n} {I2tH}t=1n(2,4,…,2n)是没有对应的LR输入帧的。我们提出了一个单阶时空超分框架:Zooming Slow-Mo,该框架主要包括四个部分:特征提取,帧特征时间插值模块,可变形的ConvLSTM和HR帧重建。
我们首先使用具有卷积层和 k 1 k_1 k1个残差块的特征提取器从输入视频帧中提取特征图 { F 2 t − 1 L } t = 1 n + 1 \{F_{2t-1}^{L}\}_{t=1}^{n+1} {F2t−1L}t=1n+1,然后使用帧特征插值模块合成LR特征图 { F 2 t L } t = 1 n \{F_{2t}^{L}\}_{t=1}^{n} {F2tL}t=1n。为了更好的利用时间信息 ,使用可变性的ConvLSTM处理连续特征图: { F t L } t = 1 2 n + 1 \{F_t^L\}_{t=1}^{2n+1} {FtL}t=12n+1。我们提出的可变性ConvLSTM可以同时执行时间对齐和聚合。最后,从聚合的特征图中重建HR慢动作视频序列。
帧特征时间插值
给定从输入LR视频帧 I 1 L I_1^L I1L和 I 3 L I_3^L I3L中提取的特征图 F 1 L F_1^L F1L和 F 3 L F_3^L F3L,要合成丢失的中间LR帧 I 2 L I_2^L I2L和相对应的特征图 F 2 L F_2^L F2L。 我们使用特征时间插值函数 f f f(·),以直接合成中间特征图,插值函数的一般形式可以表示为:
其中 T 1 T_1 T1(·)和 T 3 T_3 T3(·)是两个采样函数, Φ 1 \Phi_1 Φ1和 Φ 3 \Phi_3 Φ3是相应的采样参数,H(·)是用于汇总采样特征的混合函数。
为了生成准确的 F 2 L F_2^L F2L, T 1 T_1 T1(·)应该捕获 F 1 L F_1^L F1L和 F 2 L F_2^L F2L之间的前向运动信息,而 T 3 T_3 T3(·)应该捕获 F 3 L F_3^L F3L和 F 2 L F_2^L F2L之间的后向运动信息。 但是, F 2 L F_2^L F2L在此任务中不可用于计算前进和后退运动信息。为了缓解此问题,我们使用 F 1 L F_1^L F1L和 F 3 L F_3^L F3L之间的运动信息来近似向前和向后运动信息,具体如下:
其中, g 1 g_1 g1表示几个卷积层,[ , ]表示通道上叠加, α \alpha α和 β \beta β表示两个可学习的1x1卷积核, ∗ * ∗表示卷积操作。
可变形的ConvLSTM
ConvLSTM只能隐式捕获先前状态的运动: h t − 1 h_{t-1} ht−1和 c t − 1 c_{t-1} ct−1,以及当前具有小卷积接受场的输入特征图。 因此它处理自然视频中较大运动的能力有限。 会导致重建的HR帧遭受恼人的伪影。为了解决大型运动问题并有效利用全局时间上下文,我们将具有可变形对齐方式的状态更新单元嵌入到ConvLSTM中。
其中, g h g^h gh和 g c g^c gc是几个卷积层的函数, h t − 1 a h_{t-1}^{a} ht−1a和 c t − 1 a c_{t-1}^{a} ct−1a分别为对齐的隐藏状态和cell。为了充分探索时间信息,我们以双向方式使用可变形ConvLSTM。我们将时间反转的特征图输入到相同的可变形ConvLSTM中,并将来自前向通过和后向通过的隐藏状态连接起来,作为用于HR帧重构的最终隐藏状态 h t h_t ht。
帧重建与实现细节
为了重建HR视频帧,我们使用一个时间共享的合成网络,该网络将各个隐藏状态 h t h_t ht作为输入去输出相对应的HR帧。它有 k 2 k_2 k2个堆叠的残差块,并具有PixelShuffle子像素放大模块。
帧重建部分损失函数如下:
其中, ϵ = 1 \epsilon=1 ϵ=1x 1 0 − 3 10^{-3} 10−3。在我们的模型中, k 1 k_1 k1=5, k 2 k_2 k2=40。我们随机裁剪一系列大小为32x32的下采样图像块,取出奇索引的4帧作为LFR和LR输入,并取出相应的连续7帧序列作为监督。 此外,我们通过随机旋转90,180和270以及水平翻转来执行数据增强。 我们在中采用金字塔,级联和可变形(PCD)结构,以采用可变形对齐并应用Adam优化器,在该优化器中,每批次将学习率从4e-4降低到1e-7,批量大小设置为24,并在2个Nvidia Titan XP GPU上进行训练。
数据集我们使用Vimeo-90K作为训练集,包括60,000多个7帧训练视频序列。
我们使用Viemo-90K作为训练集。Vid4和Vimeo测试集被用作评估数据集。 为了测量不同方法在不同运动条件下的性能,我们将Vimeo测试集分为中的快动作,中动作和慢动作集,分别包含1225、4977和1613个视频剪辑。 我们从原始的中速运动集中删除了5个视频片段,从慢速运动集中删除了3个片段,它们连续具有全黑背景帧,从而导致PSNR达到无限值。我们通过双三次生成LR帧,下采样因子为4,并使用奇数索引的LR帧作为输入来预测相应的连续HR和HFR帧。
消融实验
可变形ConvLSTM的有效性:
双向DConvLSTM机制的有效性:
量化评估
仅供学习使用,请勿转载。