论文阅读笔记之——《Temporally Coherent GANs for Video Super-Resolution (TecoGAN)》

先给出论文链接https://arxiv.org/pdf/1811.09393.pdf

本人一开始其实是要做video SR的课题的~但是后来几经波折还是没有做,最近看到一个有趣的报道,为此写下这篇学习笔记

图像超分辨率技术指的是根据低分辨率图像生成高分辨率图像的过程,该技术希望根据已有的图像信息重构出缺失的图像细节。视频超分辨率技术则更加复杂,不仅需要生成细节丰富的一帧帧图像,还要保持图像之间的连贯性。

对于单一图像超分辨率(SISR),基于深度学习的方法可以达到当前最佳的峰值信噪比(PSNR),而基于 GAN 的架构在感知质量方面实现了重大改进。

该论文首次提出了一种对抗和循环训练方法,以监督空间高频细节和时间关系。在没有真值动态的情况下,时空对抗损失和循环结构可使该模型生成照片级真实度的细节,同时使帧与帧之间的生成结构保持连贯。研究者还发现了一种使用对抗损失的循环架构可能会出现的新型模型崩溃,并提出了一种双向损失函数用于移除对应的伪影。

以下三幅动图的右半部分是用 TecoGAN 生成的,该方法能够生成精细的细节,较长的生成视频序列也不会影响其时间连贯度。

论文阅读笔记之——《Temporally Coherent GANs for Video Super-Resolution (TecoGAN)》

论文阅读笔记之——《Temporally Coherent GANs for Video Super-Resolution (TecoGAN)》

论文阅读笔记之——《Temporally Coherent GANs for Video Super-Resolution (TecoGAN)》

理论部分

摘要

对抗训练在单图像超分辨率任务中非常成功,因为它可以获得逼真、高度细致的输出结果。然而,当前最优的视频超分辨率方法仍然只用较简单的范数(如 L2)作为对抗损失函数(MSE loss)。直接向量范数作损失函数求平均的本质可以轻松带来时间流畅度和连贯度,但生成图像缺乏空间细节(不够sharp,过平滑等现象)。该研究提出了一种用于视频超分辨率的对抗训练方法,可以使分辨率具备时间连贯度,同时不会损失空间细节。

本文聚集于video SR新型的loss,并基于已构建的生成器框架展示了其性能。实验证明时间对抗学习(temporal adversarial learning)是获得照片级真实度和时间连贯细节的关键。除了时空判别器以外,作者还提出新型损失函数 Ping-Pong loss,该函数可以有效移除循环网络中的时间伪影,且不会降低视觉质量。之前的研究并未解决量化视频超分辨率任务中时间连贯度的问题。作者提出了一组指标来评估准确率和随时间变化的视觉质量。用户调研结果与这些指标判断的结果一致。总之,该方法优于之前的研究,它能够得到更加细节化的图像,同时时间变化更加自然。

introduction

For single image super-resolution (SISR), deep learning basedmethods achieve state-of-the-art peak signal-to-noise ratios (PSNR), while architectures based on Generative Adversarial Networks (GANs) achieve major improvements in terms of perceptual quality.

Although adversarial training can improve perceptual quality of single images, it is not commonly used for videos(GAN其实并不常用于video任务)在视频序列案例中,不仅要研究任意的自然细节,还要研究可以稳定形式基于较长图像序列生成的细节。

本文首次提出(adversarial and recurrent training approach)对抗性和重复性训练方法,进而同时监督高频细节于时空关系。并且没有GT,spatio-temporal adversarial loss and the recurrent structure使得我们的模型产生真实图片的细节且保证从一帧到另一帧产生连贯的结构。We also identify a new form of mode collapse that recurrent architectures with adversarial losses are prone to, and propose a bi-directional loss to remove the corresponding artifacts(我们还确定了一种新的模式崩溃形式,这种模式崩溃是具有对抗性损失的经常性体系结构容易发生的,并提出了一种双向损失来消除相应的伪影。)

论文的主要贡献包括:

  • 提出首个时空判别器(spatio-temporal discriminator),以获得逼真和连贯的视频超分辨率;

  • 提出新型 Ping-Pong loss,以解决循环伪影;

  • 从空间细节和时间连贯度方面进行详细的评估;

  • 提出新型评估指标,基于动态估计和感知距离来量化时间连贯度。

 

 

 

 

 

 

 

 

 

 

参考资料

https://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxNA==&mid=2247488687&idx=2&sn=2e4239b855b4d2434f44d26d05e8dea9&chksm=ec1ff956db687040f99e18fe8f625d2498f4f9d9213ea71bab3a5aa2d98ea58669b06183db6c&scene=0&xtrack=1#rd