论文阅读:Image Processing Using Multi-Code GAN Prior

水平有限,有错望纠。

1. Introduction

尽管生成式对抗网络(GANs)在图像合成方面取得了成功,但将训练好的GAN模型应用于真实图像处理仍然具有挑战性。 实现这一目标的主要挑战是标准的GAN模型通常是 从随机噪声中合成图像,因此无法获取真实图像进行后续图像处理。通常的做法是将给定的图像反转回潜在代码,以便生成器可以重建它。要逆转生成过程,现有方法分为两种类型。一种是通过反向传播使重构误差最小化来直接优化潜在代码。另一种是训练一个额外的编码器来学习从图像空间到潜在空间的映射。然而,这两种方法的重建效果都很不理想,特别是在给定图像分辨率较高的情况下。

2.Method

2.1 多潜码GAN反演

论文阅读:Image Processing Using Multi-Code GAN Prior

论文阅读:Image Processing Using Multi-Code GAN Prior

论文阅读:Image Processing Using Multi-Code GAN Prior

2.2 图像处理中的mGANPrior

论文阅读:Image Processing Using Multi-Code GAN Prior

论文阅读:Image Processing Using Multi-Code GAN Prior

论文阅读:Image Processing Using Multi-Code GAN Prior

3.Experiments

我们在目前最先进的GAN模型,即PGGAN和StyleGAN上进行了大量的实验,以验证mGANprior的有效性。这些模型在各种数据集上进行训练,包括人脸的CelebA-HQ和FFHQ以及场景的LSUN。

3.1 与其他反演方法的比较

我们将我们的mGANprior方法 与以下方法进行比较:

(A)优化单个潜在代码z,

(B)学习编码器来反转生成器,

(C)使用编码器作为优化的初始化,

(D)我们建议的mGANprior

论文阅读:Image Processing Using Multi-Code GAN Prior

我们在图中观察到,现有方法无法恢复目标图像的细节,这是由于单个潜在代码的表示能力有限。相比之下,我们的方法利用了多个潜在代码,以最多的细节实现了更令人满意的重建。我们甚至用一个根据西方数据训练的模型恢复了一张东方人的脸。

 

论文阅读:Image Processing Using Multi-Code GAN Prior

为了定量评价反演结果,我们引入了峰值信噪比(PSNR)来度量原始输入与重建结果之间的相似性,并引入了与人的感知一致的LPIPS度量。我们对分别在LSUN卧室(室内场景)、LSUN教堂(室外场景)和CelebA-HQ(人脸)上训练的三个PGGAN模型进行了比较。对于每个模型,我们反转300张真实图像进行测试。

 3.2 关于潜在码的分析

代码数。在优化空间的维数和反演质量之间存在权衡。为了更好地分析这种权衡,我们通过改变要优化的潜在代码的数量来评估我们的方法。

论文阅读:Image Processing Using Multi-Code GAN Prior

图中显示,使用的潜在代码越多,我们能够获得的重建效果就越好。然而,这并不意味着可以通过增加潜在码数来无限提高性能。从图中可以看出,在数量达到20个之后,通过涉及更多的潜在代码,没有明显的改善。

每个潜在代码的角色。我们使用多个潜在代码,期望每个代码负责反转特定区域,从而相互补充。在这一部分中,我们形象地展示了不同的潜在代码在反演过程中所起的作用。对于GAN模型中的特定层,不同的单元(通道)控制不同的语义概念。

论文阅读:Image Processing Using Multi-Code GAN Prior

上图显示了一些潜在代码的分割结果和IOU图。事实证明,潜在代码是专门用来反转不同有意义的图像区域来组成整个图像的。与使用单个代码相比,这也是使用多个潜在代码的巨大优势。

图像着色。给定一幅灰度图像作为输入,我们可以按照3.2节所述使用mGANprior对其进行着色。我们与其他三种方法进行比较。DIP使用了一个判别模型作为先验,Zhang的方法是专门为上色任务设计的。我们在为卧室和教堂合成训练的PGGAN模型上进行了实验。

论文阅读:Image Processing Using Multi-Code GAN Prior

卧室和教堂图像彩色化任务的量化评价结果。AuC估模型的效果,它的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

论文阅读:Image Processing Using Multi-Code GAN Prior

结果表明,使用判别模型作为先验,不能对图像进行充分的着色。这是因为判别模型侧重于学习高层表征,而高层表征不适合于低层任务。相反,使用生成模型作为先验可以得到更令人满意的彩色图像。我们也获得了与专门用于图像彩色化的模型类似的结果(图6(C)和(D))。这得益于GAN所学到的知识。Zhang的方法适用于一般的图像彩色化,而我们的方法仅适用于与给定的GAN模型相对应的特定图像类别。在更多样化的数据集上训练的更大的GAN模型应该会提高其泛化能力。

图像超分辨率。我们还评估了我们在图像超分辨率(SR)任务中的方法。我们在经过人脸合成训练的PGGAN模型上进行了实验,并将SR因子设置为16,这样大的因子对SR任务是非常具有挑战性的。我们与DIP以及先进的SR方法RCAN和ESRGAN进行了比较。除了PSNR和LPIPS之外,我们还引入了自然度图像质量评估器(NIQE)作为额外的度量。我们可以得出结论,我们的方法取得了与先进的方法 相当甚至更好的性能。

论文阅读:Image Processing Using Multi-Code GAN Prior

图像超分辨率。下图还显示了一个可视化示例,其中我们的方法使用更多细节重建了人眼。与现有的基于学习的模型(如RCAN和ESRGAN)相比,我们的mGANprior方法对SR因子具有更大的灵活性。这表明*训练的PGGAN模型自发地学习了丰富的知识,从而可以像以前一样使用它来增强低分辨率(LR)图像。

论文阅读:Image Processing Using Multi-Code GAN Prior

图像修复与去噪。我们进一步将我们的方法扩展到图像修复和图像去噪等图像恢复任务中。我们首先通过随机裁剪或添加噪声来破坏图像内容,然后使用不同的算法来恢复它们。在PGGAN模型上进行了实验,并与其他方法进行了比较。峰值信噪比(PSNR)和结构相似度(SSIM)被用作评价度量。

论文阅读:Image Processing Using Multi-Code GAN Prior

不同修复方法的定量比较。我们测试了集中裁剪64×64个方框和随机裁剪80%像素两种情况。↑表示分数越高越好

图像修复与去噪。图中包括一些恢复损坏图像的示例。很明显,现有的反演方法和DIP方法都不能充分填充缺失的像素或完全消除添加的噪声。相比之下,我们的方法能够很好修复损坏的图像。

论文阅读:Image Processing Using Multi-Code GAN Prior

 4.Conclusion

我们提出了一种有效的利用多个潜在码和自适应信道重要性系数的mGANprior。该方法如实地重建了给定的真实图像,超越了现有的方法。 我们将提出的mGANprior应用于图像彩色化、超分辨率、图像修复等一系列实际应用中,展示了其在真实图像处理中的潜力。