Multi-scale Residual Network for Image Super-Resolution

论文原址:MSRN

0 Abstract

之前的研究显示深度神经网络能极大提升单幅图像超分辨率的质量。为了获得更好的重建效果,当前的研究趋势是使用更深的卷积神经网络。但是盲目增加网络层数并不能有效改进重建效果,更糟糕的是随着网络层数的增加在训练过程中会出现更多问题而且需要更多的训练技巧。在本文中,作者提出了一种新颖的模型叫做multiscale residual network (MSRN),该模型能充分利用图像特征,其重建效果比当今大多数先进方法都好。基于残差块,作者提出使用不同大小的卷积核分别提取不同尺度的图像特征。而且,作者将提取的不同尺度特征进行融合从而获得更有效的图像信息,将这个提取特征以及融合的模块称为Multi-scale Residual Block (MSRB)。会将每个MSRB的输出作为不同层次的特征进行全局特征融合。最后这些特征被送入重建模块获得高分辨率图像。

1 Introduction

单幅图像超分辨率(single-image super-resolution, SISR)主要任务是在给定低分辨率图像(LR)的情况下重建对应的高分辨率图像(HR)。自从SRCNN以来,基本上都是使用CNN进行超分辨率重建,而且其趋势是卷积层越来越深而且结构越来越复杂,所以训练这些模型需要越来越多的资源、时间和技巧。而且现有的超分模型有以下三个问题:

a、很难复现(Hard to Reproduce):

复现模型得到的结果表明,大多数SR模型对网络结构变化很敏感,部分模型甚至无法达到论文中提到的效果。此外还有一些模型,如果对它使用不同的训练技巧(比如权重初始化,梯度裁剪,数据归一化)会得到不同重建效果。这意味着,重建效果可能不是由于模型改变而提升,而是使用了某些不知道的训练技巧

b、特征利用不足(Inadequate of Features Utilization):

大部分的模型只是通过盲目的增加模型的深度而获得更好的效果而忽视了好好利用LR图像特征。随着网络深度的增加,特征会在传播过程中逐渐消失,而利用好这些特征却是重建HR图像的关键

c、可扩展性不足(Poor Scalability):

使用预处理的LR图像作为输入不仅会增加计算复杂性而且会产生可见的伪影。因此,最近的方法都是直接在LR图像放大重建,结果就是SR模型很难适应任意的缩放因子,或者说只需要对网络结构进行小调整就可以迁移到任何缩放因子。

为了解决上面三个问题,作者提出了MSRN,该模型首先使用MSRB获得不同尺度特征,这些特征可以看成局部多尺度特征;然后,对每个MSRB的输出融合得到全局特征;最后,全局特征和局部特征结合起来能最大化利用低分辨率图像特征并且解决传播过程中梯度消失的问题,使用一个简单而有效的重建结构从而得到高分辨率图像。
作者在DIV2K数据集上进行训练,并且没有使用任何权重初始化方法和其他训练技巧,而且如果增加MSRB模块的数量能获得更好的结果。主要创新点如下:

  • 本文提出的MSRB不仅能提取出图像特征,而且还能融合不同尺度的特征
  • 本文提出的多层次特征融合(hierarchical features fusion, HFFS)简单有效而且能适应任何缩放因子;

2 Related Work

2.1 Single-image Super-resolution

刚开始使用插值的方法解决SR问题,之后冲Dong等人提出了SRCNN后,现在基本上都是基于CNN的超分辨率重建模型,SRCNN需要使用插值预处理输入LR图像,即把LR图像放大到输出图像的大小,但是这样会导致计算复杂度提升以及伪影的出现,之后提出的FSRCNN解决了需要预处理的问题,而VDSR则是引入了残差结构以及深层CNN。

2.2 Feature Extraction Block

Multi-scale Residual Network for Image Super-Resolution
特征提取模块主要都是由上面三个基本模型组合而成。

3 Proposed Method

在超分辨率中,我们的目的是从低分辨率图像ILRI^{LR}得到对应的超分辨率图像ISRI^{SR},高分辨率图像IHRI^{HR}是通过双三次插值得到IHRI^{HR}。作者将图像转化为YCbCr通道,并且只在Y通道上训练。将ILRI^{LR}记作W × H × C,IHRI^{HR}ISRI^{SR}记作rW × rH × C,其中C=1,表示Y通道,r表示缩放因子。
最终目标是学习ILRI^{LR}IHRI^{HR}之间的端到端映射函数F。即给定训练集{IiLR,IiHRI^{LR}_{i},I^{HR}_{i}},我们需要解决下面这个问题:
θ=argminθ1Ni=1NLSR(Fθ(IiLR),IiHR)\theta = arg min_{\theta} \frac{1}{N} \sum_{i=1}^{N} L^{SR}(F_{\theta}(I^{LR}_{i}),I^{HR}_{i})
其中,θ=W1,W2,W3,...,Wm,b1,b2,b3,...,bm\theta={W_{1},W_{2},W_{3},...,W_{m},b_{1},b_{2},b_{3},...,b_{m}},表示m层网络的权重和偏置,LSRL^{SR}表示损失函数,其作用是最小化IiLR,IiHRI^{LR}_{i},I^{HR}_{i}的不同之处。
最常用的损失函数就是MSE了,虽然使用它能获得高PSNR/SSIM值,但是重建出来的图像纹理过于光滑。在本文中作者使用了L1函数作为损失函数,这样就避免了不必要的技巧以及大量计算,所以LSRL^{SR}可以写成:
LSR(Fθ(IiLR),IiHR)=Fθ(IiLR)IiHR1L^{SR}(F_{\theta}(I^{LR}_{i}),I^{HR}_{i}) = ||F_{\theta}(I^{LR}_{i}) - I^{HR}_{i}||_{1}
如下图所示即为MSRN模型结构,该模型使用未处理的LR图像作为输入,通过模型处理后得到高分辨率的输出。
Multi-scale Residual Network for Image Super-Resolution
模型可以分成两个部分:多尺度残差模块(MSRB)和层次特征融合结构(HFFS):

3.1 Multi-scale Residual Block (MSRB)

为了在图像上获得不同尺度的特征,作者提出了MSRB,具体结构如下图所示。MSRB包括两部分:多尺度特征融合以及局部残差学习。
Multi-scale Residual Network for Image Super-Resolution

3.1.1 Multi-scale Features Fusion

我们使用了两个不同大小的卷积核在两个支路上进行特征提取,并且每个卷积核提取的特征会进行级联操作(concatenation operation)作为下个卷积核的输入,从而实现不同尺度特征共享。具体过程如下式表示:
Multi-scale Residual Network for Image Super-Resolution
其中w和b分别表示权重和偏置,其上标表示所在层数,下标表示卷积核大小,σ(x)\sigma(x)表示ReLU**函数,[]表示级联操作。
最后的1×1卷积核有两个作用:

  • 第一是为了融合两个支路提取的不同尺度的特征;
  • 第二是为了保证输入通道数和输出通道数一致;

3.1.2 Local Residual Learning

为了使得模型更有效,作者也采用了残差学习,具体如下式所示:
Multi-scale Residual Network for Image Super-Resolution
其中MnMn1M_{n}和M_{n-1}分别表示MSRB的输出和输入,+操作表示MSRB结构图中的shortcut connection。
使用局部残差学习能有效降低计算复杂性同时提升模型性能

3.2 Hierarchical Feature Fusion Structure (HFFS)

对于SR问题来说,输入LR图像和输出SR图像是高度相关的,所以能在重建部分充分利用到LR图像的特征对于重建效果来说至关重要,但是,随着网络深度增加,某些提取出来的特征会在传播的过程中消失,对于这个问题一般都是使用shortcut connection来解决,但是这样还是不能完全利用LR图像的特征反而会产生很多冗余信息。
在实验中,作者发现随着层数的增加,网络空间表达的能力在下降而语义表达能力在增强, 所以为了利用好低层级特征(空间信息)和高层级特征(语义信息),作者提出了HFFS,既将所有MSRB模块的输出到重建层,但是这些MSRB模块提取的特征会包含冗余信息,并且也不能将它们直接用于重建(因为计算复杂性的原因),所以使用一个1×1的卷积核进行融合,同时减少特征图维数。具体公式如下:
Multi-scale Residual Network for Image Super-Resolution
其中MiM_{i}表示第i个MSRB的输出,[]表示级联操作。

3.3 Image Reconstruction

使用PixelShuffle进行上采样,扩大图像大小。PixelShuffle(×2)操作如下图所示:
Multi-scale Residual Network for Image Super-Resolution

4 Experiments

Multi-scale Residual Network for Image Super-Resolution
Multi-scale Residual Network for Image Super-Resolution