Unsupervised Deep Image Fusion With Structure Tensor Representations论文笔记
基于结构张量表示的无监督深层图像融合
一、Abstract
基于结构张量表示的无监督深层图像融合(光/热成像融合、远焦/近焦融合,欠曝/过曝融合,RGB/NIR图像融合)
1、现有问题
缺乏用于监督学习的标记数据
2、deep image fusion network (DIF-Net)
一个无监督的损失函数使用结构张量表示的多通道图像对比度,通过特征提取、特征融合和图像重建来融合图片。
二、Introduction
1、图像融合
提取各自信道中的有利信息,从多幅图像中生成包含重要特征的融合图,最后综合成高质量的图像
2、结构张量
描述图像对比度的有力尺度,是描述图像空间信息的有力工具,可以用于区分图像的平坦区域、边缘区域与角点区域。
张量就是一个关于图像的结构矩阵:
其中Ix,Iy就是原对原图像在x和y方向求得的偏导(水平、垂直方向的梯度)
带有结构张量的无监督损失函数来惩罚源图像和融合图像之间的结构张量。
3、传统方法:空间域和变换域方法
a)空间域方法:计算源图像的加权平均值(无需特征提取),权重由图像块或梯度信息确定。
b)变换域方法:将源图像中的信息转化为另一个特征域后再进行融合。常用的变换方法包括多尺度分解和稀疏表示。
c)缺点:仅强调强细节,对小而重要的细节不敏感。
4、CNN方式
用没有ground-truth的自学习编码和无监督损失函数,无监督损失函数是通过度量来判断融合质量的,所以网络就成为了确定哪些源图像应该对融合图像做出贡献的问题。
5、主要贡献
a)提出了一种基于结构张量的无监督图像融合框架,可以使输出具有与高维输入图像相同的对比度。
b)设计了一个轻量级的CNN架构,通过单个前向传递直接输出(无需复杂的解码器或迭代过程)。
c)我们的方法适用于多种融合应用,包括多光谱、多曝光和多聚焦图像融合。(光/热成像融合、远焦/近焦融合,欠曝/过曝融合,RGB/NIR图像融合)
三、Related Works
图像融合四种方法:空间域,变换域,基于梯度和基于CNN的方法
1、空间域
通过对源图像进行加权平均来实现图像融合。一般来说,权值是根据不同像素的活动程度来确定的,如SVM、神经网络和SIFT。
早期空间域方法:基于块的和基于区域的融合策略。基本原理是利用图像方差和空间频率,从源图像中选择图像块或分割区域。然而,这些方法在对象边界上存在块效应,或者严重依赖于分割精度。
最近的空间域方法:采用初始权值图的后处理,来考虑图像像素之间的空间一致性。优化方法,如GRW和MRF。
2、变换域
常用的多尺度分解是离散小波变换(DWT),但下采样过程受移位方差影响。
传统方法:通常分别对高频和低频子带使用最大值规则和平均。然而,融合规则由于缺乏空间一致性而产生亮度失真。
现有方法:基于稀疏表示的低频段融合方法,新的加权平均融合规则,引导图像滤波的新权重构造的空间一致性等。但隐含地假设多个图像中每个像素只有一个主导特征,所以不允许在源图像上形成较小但一致的对比度。
3、基于梯度的方法
将结构信息从源图像传输到融合图像。(结构信息:例如一条直线贯穿几行,一维化后直线不再连续,结构信息丢失)
4、基于CNN的方法
无监督方法是从编码器中提取深层特征,然后将它们融合为统一特征。最终的融合图像由学习的解码器重建。
四、Proposed Method
1、Background and Motivation
结构张量来表示多通道图像上的梯度信息。
在(x,y)处像素的梯度用雅可比矩阵表示,I表示M个通道的图片。∇x(或∇y)表示水平(或垂直)方向的导数。
向量是由大小和方向组成的,导数只求了大小并没有方向。所以需要加一个方向。
用欧氏距离来表示:I在v方向上在(x,y)处的对比度
用这个二维矩阵来表示多通道结构张量
结构张量的特征向量表示多通道图像对比度最大和最小的方向,对应的特征值表示变化率。
利用结构张量作为损失函数。可以通过保持多通道输入整体对比度的CNNs生成融合图像。
2、DIF-Net
a)特征提取:有两个残差块一个卷积层,每个残差块有两个卷积,所有卷积层都是3316
b)特征融合:将提取的特征连接,生成HW16M,然后用16个5×5大小的滤波器变成HW16
c)图像重建:三个残差块和一个卷积层组成。除最后一层外,每个卷积层用3*3的滤波器生成16个特征映射。最后一个卷积层直接生成N通道融合图像,不需要任何**函数。
3、loss function
第一项是强度保真度项,第二项是结构张量保真度项
损失函数,u表示融合的图像,put表示假定的图像.强制融合的图像与假定的图像具有相同的对比度。
用融合图像与假定图像之差的2范数平方来表示强度保真度项,Ω表示坐标(x,y)的域
融合图像与源图像的结构张量之差的对应元素平方和再开方,来表示结构张量保真度。使融合图像和输入图像的结构张量相同。
五、Analysis
1、Iput
假设图像的作用是引导CNN输出嵌入自然图像域
对于光/热成像,Iput设为光图像,设为热图像,设为(光+热)/2
Iput=(I1+I2)/2最佳
2、λ
λ=10−4时,DIF网络的输出趋向于模糊,并且由于模糊Iput的影响而包含微弱的细节。
λ=1时,图像是饱和的,并且包含过度增强的细节。
λ=10-2最佳
3、不同的图像融合方法
4、不同变量方法的比较
六、Experiments
使用adam优化器,β1=0.9,β2=0.999和ε=10−8,100个epoch,学习率0.001,每十个epoch学习率减小一半
标准化到[0,255]
评价方法:使用了七种非参考质量度量,基于信息论的度(QMI和QFMI)、基于特征的度量(QX和qscd)、基于人类感知的度量(QH),以及基于结构的度量(QP和QM)。七个质量指标值越大,融合效果越好。
1、光/热图像融合
2、近焦/远焦融合
3、欠曝/过曝融合
4、RGB/NIR融合
5、测试
测试图像大小分别为256×256和512×512,运行时间可DenseFuse和DeepFuse媲美