自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

论文地址:https://arxiv.org/abs/2002.11300

项目地址:https://github.com/hitzhangyu/Self-supervised-Image-Enhancement-Network-Training-With-Low-Light-Images-Only

目前好像暂未发表

作者团队:哈尔滨工业大学

主要工作:

自监督不需要参考图像

单图像训练增强

整体基于Retinex理论分解图像,用直方图均衡化后的结果做参照,认为反射率的最大通道与微光图像的最大通道一致且熵最大,在此基础上用了一个很简单的网络就可以取得较好的结果。(通过查看代码,这里说的最大通道就是每个像素点取三个通道里的最大值)

但是感觉增强效果一般,而且挑的对比方法没有选一些效果好的,结论里也说明了有色差问题,但是毕竟没有参考图像,也没啥可比性。

摘要

提出了一种基于深度学习的自监督微光图像增强方法。受信息熵理论和Retinex模型的启发,提出了一种基于最大熵的Retinex模型。利用该模型,一个非常简单的网络就可以将光照和反射率分离开来,并且该网络只用弱光图像进行训练。为了实现自监督学习,我们在模型中引入了一个约束条件,即反射率的最大通道与微光图像的最大通道一致,且其熵最大。我们的模型非常简单,不依赖任何精心设计的数据集(即使是一个微光图像也可以完成训练)。该网络只需进行分钟级的训练即可实现图像增强。实验证明,该方法在处理速度和效果上均达到了sota水平。

1.介绍

基于深度学习的各种算法在目标检测和图像分割领域取得了令人惊讶的效果,深度学习快速发展的一个重要原因是我们可以获得大量的数据集。在这些任务中,虽然数据集的建设需要一定的成本,但仍然是可以接受的,然而,在微光图像增强、图像去叠、图像复原等低层图像处理任务中,很难获得大量真实的输入/标签图像对。

合成微光图像或利用不同曝光时间的图像获取数据这些方法仍然存在两个问题。
一是如何保证预先训练的网络能够用于从不同设备、不同场景、不同光照条件下采集的图像,而不是建立新的训练数据集。
另一个是如何确定用于监督的正常光图像是否最好。并且不能保证增强后的图像能和低光图像在良好照明下的图像表现出相同的信息。

针对这两个问题,本文提出了一种基于信息熵理论和Retinex模型的自监督微光图像增强网络,在增强质量和增强效率方面达到了sota水平。本文只需要低光图像,不需要任何配对或非配对的正常光图像。据我们所知,这是第一种基于深度学习的完全自监督图像增强方法。该方法不依赖于精心设计的复杂网络结构,只需简单的完全卷积神经网络(CNN)如图2所示,并进行分钟级训练,就可以完成微光图像增强任务。

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

有一些基于Retinex模型的图像增强网络,将低光图像分解成相应的反射率和照明图。与这些工作类似,我们也使用一个网络来将微光图像分解为反射和照明,但是与之前的工作不同,我们使用自监督方法来训练网络。

我们认为微光图像增强任务是以更直观的方式显示微光图像中包含的信息,而不是创建新的信息。同时,根据熵理论,直方图均匀分布的图像熵最大,信息量最大。基于以上分析,我们提出了一个假设,即增强后的图像最大通道的直方图分布应与直方图均衡化后的微光图像最大通道的直方图分布一致 。在这种假设下,可以在没有正常光照图像的情况下设计损失函数,它不仅可以保持增强图像的真实性,而且可以保证增强图像具有足够的信息。该方法不依赖于获取微光图像的方式,且训练过程完全是自监督的,因此即使在新的环境下预训练的网络不够好,该方法也具有良好的泛化能力,无需构建成对/不成对的正常光图像数据集就可以对网络进行重新训练或微调。我们的贡献包括:

提出了一种新的基于最大熵的Retinex模型,并给出了其理论来源。
结合深度学习,我们提出了一种自监督的微光图像增强网络,它可以在一幅微光图像上完成训练。
提出的方法只需要分钟级的训练,并且具有良好的实时性能。通过实验和客观指标验证了算法的增强效果和稳定性。

2.相关工作

balabala

3.方法

3.1基于retinex模型的最大熵理论

在Retinex模型的基础上,将图像分解为反射率和照度图,具体如下:自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only
其中S表示捕获的图像,R表示反射率,I表示照明图。这是一个高度不适定的问题,它的解决需要额外的先验知识。根据贝叶斯公式,问题可以表示为:自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

其中,p(R,I | S)是后验概率,p(S | R,I)是类条件概率,p(R)和p(I)是反射和照明的先验概率。现有的方法一般将先验概率p(R)和p(I)相加,求出最大后验概率,并估计反射率和光照。
通过计算式(2)的负对数,图像增强问题可以转化为三个距离项的形式,如式(3)所示:自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only
其中,lrcon表示重建损失,lr表示反射损失,li表示光照损失。λ1和λ2为权重参数。

本文采用L1范数约束所有损失,不比较L1、L2、SSIM等损失函数对低层图像处理任务的影响,已有一些相关研究如[43]。重建损失lrcon可以表示为:自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

对于反射损失,与现有的仅使用梯度一范数的方法不同,基于以下原因,我们提出了一种新的反射损失距离测量方法:
对于图像增强任务,处理后的图像应具有足够的信息
处理后的图像应与原始图像信息一致
直方图均衡化可以大大提高图像的信息熵

基于上述考虑,我们提出公式(5)作为反射图像的损失,该公式也使用L1损失:自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only
其中,F(X)表示图像X的直方图均衡化算子。λ是权重参数。这个损失函数意味着反射率的最大通道应该与微光图像的最大通道一致,并且具有最大熵。选择最大通道约束有三个主要原因。首先,对于弱光图像,最大通道对其视觉效果的影响最大。其次,如果选择其他通道,根据先验知识,毫无疑问,在最大通道出现的饱和现象会比其他通道严重。第三,如果我们选择一个颜色通道,如R,G或B通道,它显然不符合自然图像。

对于光照损失,我们采用了[9]中提出的结构感知平滑度损失:自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only
文[9]提出公式(6)可以使光照损失感知图像结构。这种损失意味着原始的TV函数自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only与反射率梯度加权。

从方程(3)到方程(6),我们得到了基于最大熵的Retinex模型,如方程(7)所示:自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

变分法或FFT通常用于解方程(7)的L2loss,但二者都需要多次迭代,这会带来时间消耗问题,而且约束条件越多,求解就越复杂。为了实时增强图像,提出了一种基于深度学习的图像增强方法。网络使用方程式(7)作为损失函数。我们可以发现在方程(7)中,只有弱光图像,因此可以通过自监督的方式训练网络。

本文中的λ1、λ2、λ3、λ4分别为0.1、0.1、10和0.01。在视觉效果上,λ1和λ2的值的影响不太明显,我们仅从[9]中选择0.1,即λ3的值。对于λ4,在我们的实验中,我们发现它可以用来控制噪声。当其值增大时,噪声减小,同时,图像会变得更加模糊。通过实验,选择0.01作为λ4,当λ4=0.1时,增强后的图像会出现明显的模糊。

3.2基于自监督网络的解决方案

基于方程(3)到方程(7)提出的模型,我们可以实现自监督训练,这意味着我们可以在线建立数据集,避免了适用性问题。与人工选取监督器的有监督学习相比,基于最大熵的模型能保证增强图像具有足够的信息熵。

我们只需要一个非常简单的CNN结构来实现光照和反射率的分解。我们最终采用的CNN的具体结构如图2所示。该网络的输入是微光图像及其最大通道,经过一定的卷积和concat层后,用sigmod层可以得到反射率和照度。表1是网络各层的具体信息。

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

事实上,我们已经对不同的网络结构进行了实验,卷积层和sigmod层的叠加也能产生可接受的结果。但是,如果我们添加一些concat层,增强结果将变得更加清晰。可见,在网络中采用下采样和上采样,其主要功能是降低噪声。在一些实验中,我们发现加入下采样层会使图像变得模糊,但同时也会降低噪声。

4.实验

4.1评估指标

本文所使用的约束条件并不符合图像的自然特征,因此很难用现有的评价指标对增强后的图像进行准确的评价。本文利用灰度熵(GE)、颜色熵(CE,颜色熵是R、G、B通道的熵和)、灰度平均照度(GMI)、灰度平均梯度(GMG)、LOE[23]、NIQE[46]、PSNR、SSIM对增强图像进行评价。需要注意的是,这些指标只能在某些方面反映图像质量,与人类视觉系统给出的评价结果并不完全一致。LOElow和LOEhigh分别是用低光和高光图像计算得到的。

4.2训练时间的影响

我们在LOL数据集中使用485个微光图像进行训练,15个用于测试。考虑到我们的方法是自监督的,它缺乏绝对的参考,并且损失函数中的一些参数和约束来自于个人经验。我们无法通过损失的改变来确定我们的训练是否达到了最佳水平。因此,我们对网络进行1000个周期的训练,每20个训练周期对测试数据进行处理,并用这些指标对网络的训练效果进行评价。

图3和图4显示了随着训练次数的增加,损失和指标的变化情况。可以看出,损失在开始时下降得很快。在我们的GPU上,训练一个epoch的时间不到0.65秒。图5显示了不同训练时间的测试数据中微光图像的增强结果。我们只选择了前200个epoch的结果来展示。可以看出,随着训练的进行,一些能反映图像清晰度的指标如熵、梯度等都在增加,但增强后的图像与参考图像的差距也越来越大。这是由噪声引起的,虽然随着训练的进行,图像变得越来越清晰,但同时噪声也在不断增加。为了保持清晰度和噪音之间的平衡,我们在200个周期后停止训练。在我们的实验中,如果训练时间持续增加超过1000个,那么在一些测试图像中就会出现伪影,比如[8]。早期终止是避免噪声和伪影的合理方法。

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

4.3重复学习稳定性

由于基于学习的方法的特点,在大多数情况下,我们无法重现最优结果。因此,我们多次重复实验,以评估该方法的重复性。在每个实验中,我们训练了200个epoch的网络,并通过4.1节中提到的指标对测试数据进行评估。图6和图7分别给出了不同实验的评价指标和一些增强效果。可以看出,LOE、GMG、NIQE等指标有较大的波动,但在大多数实验中,增强效果的变化并不明显。在第五次实验中,增强图像的颜色比其他图像浅。我们认为增强效果的差异可能来自于L1loss函数和每个实验中训练数据之间的差异。

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

在每个实验中,唯一的区别是训练patch,这似乎对训练结果有影响。这些训练patch是随机选取和裁剪的,考虑到训练次数和图像与patch的大小差异较大,它们只是训练图像的一小部分。同时,我们使用L1损失进行训练,与L2loss相比,L1loss可能有多种解决方案,其解决方案会受到训练数据的很大影响。当训练数据发生变化时,结果也可能发生很大变化。然而,从视觉效果来看,本文提出的方法相对稳定。

4.4与其他算法的比较

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

4.5在单一微光图像上训练

同时,为了进一步评价本文提出的方法的性能,我们进行了单个弱光图像训练实验。训练图像是LOL数据集的测试数据之一,测试数据是LOL数据集的15个测试数据。在图12中,我们仅使用图像12-(a)来训练网络,并且12-(b)到12-(k)是图像12-(a)在不同训练时段的增强结果。图11显示了不同训练阶段对测试数据的评价指标。图13显示了一些LOL测试数据和其他微光图像的增强结果。表2显示了10000个训练阶段的测试数据指标。从图11到图13可以看出,即使我们只有一幅新环境的图像,我们的方法也可以快速地应用到新的环境中。

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

自监督微光增强论文解读:Self-supervised Image Enhancement Network: Training with Low Light Images Only

从视觉效果和某些指标来看,单幅图像训练的效果要比多幅图像训练的效果差。然而在我们的实验中,随着训练次数的增加,单一图像训练不会产生伪影。这可以证明伪影不是由本文提出的模型产生的。当我们用单幅微光图像训练图像时,不需要网络去拟合直方图均衡拉伸,这是单次弱光训练中没有伪影的主要原因。在多幅图像的训练中,如果不考虑图像的整体信息,可能很难拟合直方图均衡化长度。我们认为,如果要避免多幅图像训练中的伪影,就必须使网络更深入,或者考虑整个图像的信息,但这也会增加时间消耗。

5.结论

本文提出了一个基于最大熵的Retinex模型和一个自监督图像增强网络。该网络只需对微光图像进行训练,在增强过程中可以稍微降低噪声。通过对真实微光图像的测试,表明在短时间的训练下,该网络能产生良好的视觉效果,并具有良好的实时性。值得注意的是,我们的方法是自监督的,因此它可以适应新的环境和设备,而且增强后的图像可能与实际数据不同,颜色上更像是夜晚的图像。未来的工作将集中在颜色恢复、噪声和伪影抑制、细节保持等方面,我们认为这些可以通过生成对抗网络或新的约束来实现。