【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

光谱-空间残差网络或高光谱图像分类:一个三维深度学习框架

 

摘要——在本文中,我们设计了一个端到端光谱空间残差网络(SSRN),它以原始3-D立方体作为输入数据,而不需要特征工程进行高光谱图像分类。在该网络中,光谱和空间残差块从高光谱图像(HSI)中丰富的光谱特征和空间上下文中连续学习鉴别特征。所提出的SSRN是一种有监督的深度学习框架,它缓解了其他深度学习模型的精度下降现象。具体来说,残差块通过标识映射连接每一个其他3-D卷积层,这有利于梯度的反向传播。此外,我们还对每个卷积层进行批量归一化,使学习过程正规化,提高训练模型的分类性能。定量和定性结果表明,SSRN在农业、农村-城市和城市数据集印度松树、肯尼迪空间中心和帕维亚大学中达到了最先进的HSI分类精度。

关键词——3-D深度学习,高光谱图像分类,光谱-空间特征提取,光谱-空间残差网络(SSRN)。

 

一、内容简介

具有一定土地覆盖类型的每个像素的分类是高光谱图像分析的基石,它跨越了广泛的应用范围,包括图像分割、对象识别、土地覆盖映射和异常检测[1]-[4]。为了获得高光谱图像分类的鉴别特征,应考虑高光谱图像的两个主要特征。首先,来自数百个连续光谱带的丰富的光谱信息使精确识别相应的地面材料成为可能[5]。第二,来自HSI均匀区域的高空间相关性为精确映射提供了光谱特征的补充信息[6]。

为了利用丰富的光谱波段,传统的像素级HSI分类模型主要集中在两个步骤:特征工程和分类器训练。特征工程方法包括特征选择(波段选择)和特征提取[7]特征工程的主要目标是降低HSI像素的高维性,提取最具鉴别性的特征或带。接下来,使用从特征工程步骤获得的判别特征训练通用分类器。特征提取方法通常通过非线性变换来学习有代表性的特征。例如[8]集成了从不同类型的降维方法导出的多个特征来训练支持向量机(SVM)分类器与特征提取不同,特征选择方法试图从原始HSI中找到最具代表性的特征,而不改变它们以保留其物理意义。例如,[9]采用流形排序作为一种无监督的特征选择方法,选择最具代表性的波段来训练后续的分类器。此外,一种基于多任务联合稀疏表示的集成带选择方法[10],它具有马尔可夫随机场施加的平滑先验这两种基于波段选择的范式使用来自所有可用像素的光谱波段进行特征选择,可以解释为半监督学习方法。

另一方面,有两种方法将空间信息纳入HSI分类:空间化输入和后处理。空间化的输入方法将特征工程步骤强加给从HSI获得的3-D立方体。许多论文认为,用更多的空间信息扩展输入数据的方法可以提高分类性能[11][12]。在这些方法中,支持向量机是HSI分类中最常用的分类器,因为支持向量机对高维输入数据具有很强的鲁棒性[13]、[14]。例如,[15]使用基于区域的内核提取光谱空间特征,学习的SVM分类器在其中识别高光谱像素的类别。相反,后处理方法考虑到先前关于平滑的知识,考虑到具有相似光谱信息的相邻像素可能属于相同的土地覆盖类别。例如,[16]将概率图形模型作为后处理步骤,以改善内核SVM的分类结果。虽然许多作品使用典型的分类框架,这些框架由后面的特征提取器组成

通过可训练的分类器,它们有两个缺点。第一,特征工程步骤通常不能很好地推广到其他场景。第二,在线性分类器具有有限的表示能力以充分利用丰富的光谱和空间特征之前,实际应用的一层非线性变换(例如核方法)。

面对基于特征工程的框架的这些缺点,有监督的深度学习模型引起了越来越多的关注,因为深度学习模型的目标功能直接侧重于分类,而不是两个独立的步骤深度学习的基本哲学是让经过训练的模型本身决定哪些特征比人类施加的限制较少的其他特征更重要。换句话说,深度学习框架通过训练过程同时学习特征表示和相应的分类器。此外,多层神经网络可以提取HSI的鲁棒性和鉴别性特征,并优于SVMS[17][18]。例如,堆叠自动编码器(SAEs)被用作特征提取器,以贪婪的分层预训练策略捕获具有代表性的叠加光谱和空间特征[17]。同样,在[18]中探讨了深度信念网络在HSI分类中的潜力。然而,这两种模型都存在相同的空间信息丢失问题,这是由于对一维输入数据的要求所致。

近年来,卷积神经网络(CNNs)及其扩展在计算机视觉任务[19]、[20]方面取得了前所未有的进展。多篇论文表明,CNNs可以使用HSI分类的空间化输入提供最先进的结果[21]-[23]。例如,[23]使用CNNs提取空间特征,这些特征与从平衡局部判别嵌入中学习到的光谱特征集成在一起,用于HSI分类。然而,CNN模型的输入是原始HSI的三个主成分,这意味着空间特征提取过程仍然失去了一些光谱空间信息。在[21]中提出了一种基于CNN的特征提取器,它可以从像素对中学习判别表示,并使用投票策略来平滑最终分类地图。此外,采用3-D CNN直接从原始HSI中提取深光谱空间特征,并提供了有希望的分类结果[22]。同样,[24]进一步研究了利用空间尺寸较小的HSI输入立方体进行光谱-空间分类的3-D CNN。这些模型使用直接处理原始HSI的方法生成专题地图,而CNN模型的分类精度随着网络的深入而降低。

为了解决这一问题,在[25]的启发下我们提出了一种有监督的携带考虑HSI特性的连续学习块光谱空间残差网络(SSRN)1。所设计的光谱和空间残差块从HSI立方体中提取鉴别光谱-空间特征,可视为CNN中卷积层的扩展。与[21]-[24]中使用的3-D CNN相比,SSRN具有更深的结构,并且包含每个其他卷积层之间的快捷连接。因此,SSRN可以从原始HSI中学习鲁棒的光谱空间表示。类似于SSRN,[26]将残差学习与完全卷积层结合起来,形成前后关系的CNN。然而,该方法未能区分光谱特征和空间特征。因此,本文研究了两种残差体系结构对HSI分类的光谱空间特征学习的有效性及其在不同场景下的鲁棒性。

与计算机视觉和模式识别社区的大量注释数据相比,这些数据在深度学习模型取得的前所未有的成功中起着重要作用[20],在广泛研究的HSI数据集中可用的训练和测试样本数量相对较少此外,不同标记样品的不平衡量破坏了HSI分类的准确性。此外,SSRN的输入数据是原始HSI的3-D立方体,多维输入数据带来了更多的挑战。因此,本文旨在研究SSRN对不同类别的大、小训练规模、高、中空间分辨率和样本不均匀的各种土地覆盖类型的HSI数据集的泛化能力。

本文的四大贡献如下

  1. 设计的SSRN采用残差连接,减轻了HSI分类精度的下降现象。
  2. 两个连续的残差块分别学习光谱和空间表示,通过这些方法可以提取更多的鉴别特征。
  3. 本文验证了批量归一化(BN)作为一种正则化方法,利用不平衡训练样本改善分类结果的有效性。
  4. 统一的体系结构设计使SSRN成为一个框架,在三个常用的HSI数据集中很好地推广。更重要的是,SSRN使用具有固定空间大小的有限训练数据来实现最先进的分类精度。

本文的其余部分组织如下。第二节描述了两种类型的残差块,并介绍了SSRN的详细体系结构。报告了网络配置和实验结果,并在第三节中进行了一些讨论。第四节得出了一些结论。

二、拟议框架

图1给出了基于SSRN的HSI分类的整个深度学习框架。在这个框架中,所有可用的注释数据被分成三组:每个数据集的训练、验证和测试组。假设HSI数据集X包含N个标记像素{ x1, x2, ., xN } ∈1×1×bY= {y1, y2, . , yN } ∈1×1×L是相应1×1×L的一热标签向量的集合,其中bL分别表示光谱带数和土地覆盖类别数。以X中的像素为中心的相邻立方体形成一组新的数据集Z={ z1, z2, . , zN}  w×w×b。充分利用光谱和由HSIS提供的空间信息,所提出的网络以原始数据中的w×w×b大小的立方体作为输入,其中训练组Z1中3-D立方体的短宽度,验证组Z2和测试组Z3在图中。1.它们对应的标签向量集为Y1Y2Y3。例如,印度松树(IN)数据集的HSI立方体的大小为7×7×200。因此,训练过程的目标是更新SSRN的参数,直到模型能够高准确性预测Yˆ3关于地面实况标签Y3给定相邻的立方体Z3.

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

 1. 基于SSRN的HSI分类框架。顶部训练Z1并利用它们相应的标签更新网络参数。验证组Z2以及它们相应的标签Y2用于监测在培训阶段生成的临时模型。(底部)测试组Z3用于评估最佳训练网络。

 

在建立了深度学习模型的体系结构并配置了用于训练的超参数之后,使用训练组Z对模型进行了数百个历元的训练1它们的地面实况标签向量集Y1。在此过程中,通过反向传播(1)中交叉熵目标函数的梯度来更新SSRN的参数,交叉熵目标函数的梯度表示预测标签向量 yˆ  = [ yˆ 1, yˆ 2, . , yˆ L ]与地面实况标签向量y = [y1, y2, . , yL ]之间的差异

验证组Z2用于监测培训通过测量临时模型的分类性能,这些模型是在训练阶段生成的中间网络,以选择分类精度最高的网络。最后,测试组Z3用于通过计算分类度量和可视化主题地图来评估经过训练的SSRN的通用性。

 

  1. 具有批量归一化的3-D卷积层

深度学习模型由多层非线性神经元组成,可以通过大量标记图像[19]学习分层表示。在几个感知任务[20]、[27]中,CNNs已经达到或超过了人类水平的智能,因为卷积层使CNNs能够学习更多具有稀疏约束的鉴别特征。本文采用3-D卷积层作为SSRN的基本元素。此外,BN[28]还在SSRN中的每个卷积层进行。这种策略使得深度学习模型的训练处理更加高效如图2所示。如果第(k+1)3-D卷积层有nk输入大小为wk × wk × dk的特征立方体包含nk+1的卷积滤波器组尺寸为ak+1 × ak+1 × mk+1的卷积滤波器以及卷积运算中的子采样步长(s1, s1, s2)则该层生成nk+1输出大小为 wk+1 × wk+1 × dk+1的特征立方体包含 nk+1 的卷积滤波器组尺寸为 wk+1 × wk+1 × dk+1的卷积滤波器以及卷积运算中的子采样步长 (s1, s1, s2),则该层生成 nk+1 输出大小为 wk+1 × wk+1 × dk+1的特征立方体其中空间宽度wk+1 = ⸤1 + (wk  ak+1)/s光谱深度dk+1 = ⸤1 + (dk mk+1)/s2第(k+1)3-D卷积层与BN(CONVBN)的第i输出可以表示为

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F                         (1)

公式(1)中Xjk  w×w×d第(k+1)层j 输入特征张量Xˆ k是批处理特征立方体Xkk的归一化结果,E(.)和Var(.)分别表示输入特征张量的期望和方差函数Hik+1bik+1分别表示参数和偏差在第(k+1)层的第i卷积滤波器组中表示3-D卷积运算R(.)是将负数元素设置为零的校正线性单元**函数。

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

 2.  3-D CONVBN。第(k+1)层对输入特征立方体Xk进行3-D卷积以及卷积滤波器组Hk+1 并生成输出特征立方体Xk+1

 

  1. 光谱和空间残余块

虽然CNN模型已被用于HSI分类,并取得了最先进的结果,但在几层之后,分类精度随卷积层的增加而降低[22]。这种现象源于CNNs的表示能力相对于相同正则化设置的训练样本数量相对较少的情况下显得过高然而,这种降低精度的问题可以通过在每个其他层之间添加快捷连接来构建残差块来缓解[25]。为此,我们在一个通用的架构中设计了两个残差块,由于HSI的高光谱分辨率和高空间相关性,从原始3-D HSI立方体中连续提取光谱和空间特征。如图3所示,一个残差块可视为两个卷积层的扩展。这种体系结构使高层中的梯度迅速传播回层,从而促进和规范模型训练过程。

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

 3. 用于光谱特征学习的光谱残差块该块包括两个连续的3-D卷积层,一个跳跃连接直接将输入特征数据集X p添加到输出特征数据集X p+2

 

在光谱残差块中,如图3所示。对于第p和第(p+1)在连续卷积分别使用尺寸为1 × 1 × m的卷积核hp+1hp+2。同时,通过填充策略,3-D特征立方体X p+1 X p+2的空间大小保持在w × w不变,即输出特征立方体在谱维上经过卷积运算后,将边界区域的值复制到填充区域然后这两个卷积层建立了一个残差函数F(Xp;θ )而不是使用跳过连接直接映射X p。光谱残差体系结构可以表述如下:

X p+2 = X p + F(X p; θ ) (4)

F(X p; θ ) = R(Xˆ p+1)  h p+2 + bp+2 (5)

X = R(Xˆ p)  h p+1 + bp+1 (6)

公式(4-6)中 θ ={ h p+1, h p+2, bp+1, bp+2} , X p+1表示第(p+1)层的n个输入3-D特征立方体hp+1d p+1分别表示第(p+1)层中的光谱卷积核和偏置。事实上,卷积核h p+1d p+1由一维向量组成,可视为3-D卷积核的特例。

光谱残差块的输出张量还包括n3-D特征立方体

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

图4. 空间特征学习的空间残差块.该块包括两个连续的3-D卷积层,一个跳跃连接直接将输入特征数据集 Xq 添加到输出特征数据集 Xq+2

 

空间残差块,如4图所示重点研究了在连续两层的卷积核Hq+1Hq+2中使用n个尺寸为a × a × d3-D卷积核进行空间特征提取。这些核的光谱深度 d 等于输入3-D特征立方体Xq的光谱深度。特征立方体Xq+1Xq+2的空间大小保持不变w × w。因此,空间残差结构可以表述如下:

ξ ={Hq+1, Hq+2, bq+1, bq+2 }, Xq+1表示(q+1)层的3-D输入特征Hq+1bq+1分别表示第(q+1)层中的n个空间卷积核。与它们的光谱对应物相比,空间残差块中的卷积滤波器组由3-D张量构成。这个块的输出是一个3-D特征卷。

 

  1. 光谱-空间残差网络

考虑到HSI包含一个光谱维数和两个空间维数,我们提出了一个连续提取光谱和空间特征的框架,用于像素级HSI分类。如图5所示SSRN包括光谱特征学习部分、空间特征学习部分、平均池层和完全连接(FC)层。与CNN相比,SSRN通过在每个其他层之间添加跳过连接来将分层特征表示层表示成连续的残差块来减轻精度下降的现象。我们以IN数据集为例,其3-D样本的大小为7 × 7 × 200,以此为例来解释所设计的SSRN。

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

5 . SSRN具有7 × 7 × 200输入HSI体积。该网络包括两个光谱残差块和两个空间残差块。平均池层和一个FC层变换5 × 5 × 24 光谱-空间特征体积为1 × 1 × L向量yˆ输出特性。

 

光谱特征学习部分包括两个卷积层和两个光谱残差块。在第一卷积层中,24个1 × 1 × 7谱核,亚采样步长为(1,1,2),卷积输入HSI体积,生成24个7 × 7 × 97特征立方体。由于原始输入数据包含丰富和冗余的光谱信息,因此在这些块中使用了1 × 1 × 7向量核。该层降低了输入立方体的高维性,提取了HSI的低水平光谱特征然后,两个连续的光谱残差块,其中包含四个卷积层和两个恒等映射,在每个卷积层使用24个1 × 1 × 7向量核来学习深光谱表示。在光谱残差块中,所有卷积层都使用填充来保持输出特征立方体的大小与输入相同。在光谱残差块之后,本学习部分中的最后一个卷积层,其中包括128个1 × 1 × 97用于保持鉴别光谱特征的光谱核,卷积24个7 × 7特征张量,以产生17 × 7特征体积作为空间特征学习部分的输入。

空间特征学习部分使用连续的3-D卷积滤波器组提取判别空间特征,其中核具有与输入3-D特征体积相同的深度。该截面包括3-D卷积层和两个空间残差块。本节中的第一卷积层减小了输入特征立方体的空间大小,并提取了具有24个3 × 3 × 128空间核的低级空间特征,从而产生了输出5 × 5 × 24特征张量。 然后,与它们的光谱对应相似,这2个空间残差块学习4个卷积层的深度空间表示,所有这些层都使用24个3 × 3 × 24空间核,并保持特征立方体的大小不变。

在上述两个特征学习部分之后,平均池层(POOL)将提取的5 × 5 × 24光谱空间特征体积转换为11 × 1 × 24特征向量。接下来,FC层根据土地覆盖类别的数量将SSRN适应HSI数据集,并生成一个输出向量yˆ = [yˆ1, yˆ2, . , yˆL ]可训练的总数SSRN的参数(约36万)远大于3个高光谱数据集中的可用训练数据,这意味着网络具有足够的能力来学习HSI的特征表示,但也过度拟合训练集倾向。因此,将BN和dropout[29]作为正则化策略来进一步提高SSRN的分类性能。

 

三、结果和讨论

在本节中,我们介绍了三个HSI数据集,指定了模型配置过程,并使用分类度量来评估所提出的方法,如总体精度(OA)、平均精度(AA)和Kappa系数(κ)。我们采用IN、肯尼迪空间中心(KSC)和帕维亚大学(UP)数据集来评估SSRN框架在不平衡训练数据、少量训练样本和高空间分辨率情况下的分类性能。在这3种情况下,我们用随机选择的训练数据进行了10次实验,并报告了主要分类指标的均值和标准差。

 

  1. 实验数据集

由1992年从印第安纳州西北部的机载可见光/红外成像光谱仪(AVIRIS)收集的IN数据集包括16个植被类别,有145个像素,分辨率为20米。丢弃20条被吸水效应破坏的条带被,其余200条带被用分析,范围从400到2500nm。

该数据集由AVIRIS于1996年在佛罗里达州收集,包含13个高地和湿地类别,具有512个614像素,分辨率为18米按像素。去除低信噪比的波段,其余176个波段被用于评估,范围从400到2500nm。

由意大利北部反射光学系统成像光谱仪于2001年获得的UP数据集包含9种城市土地覆盖类型,有610×340像素,分辨率为1.3m。一旦噪声带被丢弃,其余103个带被用于评估,范围从430到860nm。

在IN和KSC数据集中,20%、10%和70%的标记数据分别被随机分配到训练、验证和测试组。在UP数据集中,比率为10%10%80%。此外,将三个HSI数据集的所有输入数据标准化为单位方差的均值。表13列出了所有数据集的3组数字。

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

1 对IN数据集中的数字进行训练、验证和测试

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

2 KSC数据集中的数字进行训练、验证和测试

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

3 UP数据集中的数字进行训练、验证和测试

 

  1. 框架设置

在设计了SSRN框架后,我们配置了通过反向传播成本函数梯度来更新3-D 滤波器组参数的训练过程。接下来,我们分析了控制训练过程和分类性能的四个因素分别是学习率、卷积层的核数、正则化方法和输入立方体的空间大小。由于训练集很小,我们将批处理大小设置为16,并采用RMSProp优化器[30]来利用训练过程。在每个配置的训练过程中,保存了验证组中分类性能最高的模型,并通过这些最优模型生成了报告的结果。

第一,学习率控制每个训练迭代的学习步骤。具体来说,不适当的学习速率设置会导致发散或缓慢收敛。因此,我们使用网格搜索方法,每个实验运行200-epoch,从{0.01, 0.003, 0.001, 0.0003, 0.0001, 0.00003}中找到最佳学习率。根据分类结果,IN、KSC和UP数据集的最佳学习率分别为0.0003、0.0001和0.0003。

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

 6. 在IN、KSC和UP数据集中具有不同核数的SSRNs的OA(%)

 

  • 卷积滤波器组的核数决定了SSRN的表示容量和计算消耗。如图5所示。在光谱和空间残差块的每个卷积层中,所提出的网络具有相同的核数。我们评估了不同的核数,范围从8到32,在每个卷积层的间隔为8,以找到一个通用的框架。如图6所示。在IN和UP数据集中,每个卷积组中有24个核的模型获得了最高的分类精度,在KSC数据集中,16个核的模型获得了最佳的性能。这些结果是在200-epoch的训练过程中获得的,每个设置有三个数据集。

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

4 不同正则化的SSRNOA(%)

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

5 不同输入大小的SSRNOA(%)

 

第三,考虑到有更多的参数比训练样本和深度学习模型倾向于过度拟合训练数据,BN和50%的dropout可以用来规范训练过程。因此,在200-epoch的训练条件下,我们评估了不使用正则化方法的模型、不使用dropout的模型、不使用BN的模型以及同时使用dropout和BN的模型。如表4所示,BN在平均整体分类精度方面优于dropout。更重要的是,SSRN在所有三个HSI数据集中使用两种正则化策略时表现最好。

第四,为了评价空间化输入的影响,我们对不同空间大小的输入立方体进行了模型的测试。表5显示,当空间尺寸大于或等于7 × 7时,所提出的SSRNs对不同的空间尺寸具有鲁棒性,因为SSRN学习输入数据的判别空间特征。在所有三个数据集中,分类结果随着输入立方体的空间大小而增加本实验证明的空间环境的重要作用与其他出版物[3]、[15]的结果是一致的。考虑到较大的输入尺寸导致更高的分类精度,我们固定了输入HSI数据的空间大小,以便在不同的分类方法之间进行公平的比较。

 

  1. 分类结果

我们比较了SSRN与核SVM[31]和最先进的深度学习模型,如SAE[17]和3-D CNN[22]。为了证明该框架中光谱和空间残差块的有效性,我们还测试了只包含光谱特征学习部分(SPC)和只包含空间特征学习部分(SPA)的网络。此外,我们评估了SPA模型在没有跳跃连接的情况下生成的较长版本的3-D CNN(简称CNNL),以研究设计的空间残差架构对衰减精度现象[22]的影响。为了进行公平的比较,我们为所有方法设置了相同的输入体积大小为7 × 7 × b调整这些竞争的最佳设置。我们随机选择20%、20%和10%标记的3-D HSI立方体作为IN、KSC和UP数据集的训练组。

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

6 对In数据集不同方法的分类结果

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

7  KSC数据集不同方法的分类结果

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

8 UP数据集不同方法的分类结果

 

6-8报告了HSI分类的OAS、AAS、Kappa系数和所有类的分类精度。在这三种情况下,SSRN达到了最高的分类精度标准差低于3-D CNN。例如,在KSC数据集中,与CNN(97.08%)相比,SSRN(99.61%)平均总体分类精度提高了约2.5%。所有的深度学习方法产生的结果都明显优于核SVM。在所有三个数据集中,CNNL的分类结果都比CNN差。另一方面,SPA的表现优于CNN。这些结果表明,所提出的空间残差结构减轻了精度下降的现象此外,SSRN的性能一直优于SPA,因为光谱残差块学习了与空间特征互补的光谱表示。虽然在IN数据集中,燕麦和牧草修剪类的训练样本很少,但SSRN对测试数据的分类准确率高于98%的平均分类精度。这些结果验证了所设计模型在困难条件下的鲁棒性。

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 7. 对IN数据集最佳模型的分类结果。(a)假彩色图像。(b)地面实况标签。 (c)–(i) SVM、SAE、CNN、CNNL、SPA、SPC和SSRN的分类结果。

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 8. 对KSC数据集最佳模型的分类结果。(a)假彩色图像。(b)地面实况标签。 (c)–(i) SVM、SAE、CNN、CNNL、SPA、SPC和SSRN的分类结果。

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 9. UP数据集最佳模型的分类结果。(a)假彩色图像。(b)地面实况标签。 (c)–(i) SVM、SAE、CNN、CNNL、SPA、SPC和SSRN的分类结果。

 

7-9在三个数据集中可视化最佳训练模型的分类结果,以及原始HSI的假彩色图像及其相应的地面实况地图。在所有三种情况下,不同方法之间的定性比较符合表68中的定量比较。SPC生成分类图噪声很大SPA产生了更平滑的结果,但在某些类中仍然存在一些点噪声。例如,SPA减少了IN数据集的小麦类和UP数据集的裸土类中的斑点。与其他方法相比,SSRN为所有三种HSI提供了最准确、最平滑的分类地图,因为SSRN连续学习了鉴别光谱和空间特征。

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

 10. 不同方法的OA与不同的训练数据百分比。(a)数据集。(b)KSC数据集。(c)UP数据集。

 

为了检验SSRN对不同训练样本数量的鲁棒性和通用性,随机选择5%、10%、15%和20%标记样本作为IN和KSC数据集的训练数据,4%、6%、8%和10%作为UP数据集的训练数据。在图10利用不同数量的训练数据,给出了不同分类器的总体精度。对于少量的训练样本,当SVM生成劣等OA时,SSRN仍然产生较高的分类精度,更明显的是SSRN比其他方法表现最好,因为SSRN比其他方法提取更多的鉴别特征。对于大量的训练样本,SSRN仍然在所有3个HSI数据集中生成最好的分类结果,但改进并不那么清楚,仅仅是因为分类精度很高(高于99% OA)。

为了进一步验证残差块对减小精度下降现象的有效性,建立了具有不同残差块的SSRN模型,对3-D HSI数据进行了分类。我们测试了从2到5块的SSRN,并使用与表6-8中相同的设置对光谱和空间残差块进行了不同的处理。在图11中较深的SSRNs与浅层的分类精度差异可以忽略不计。因此,与[17]和[22]中报道的明显的精度下降效应相比,具有不同层次的SSRNs具有一致的HSI分类性能,这表明在其他深度学习模型中,残差连接可以减轻下降的准确性影响。

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

 

 11 . 具有不同层和残差块组合的光谱-空间神经网络的OA。水平轴中的x + y形成表示具有x光谱和y空间残差块的SSRN。

 

【论文翻译】Spectral-Spatial Residual Network for Hyperspectral Image Classification A 3-D Deep Learning F

9 三个HSI数据集不同模型的训练和测试时间

 

训练和测试时间为SSRN的计算效率提供了一个直接的衡量标准。所有实验都是在带有GTX980M图形处理单元(GPU)的MSIGT72S笔记本电脑上进行的。表9列出了SSRN和其他深度学习模型的培训和测试时间。如表9所示,光谱剖面部分(SPC)的训练时间比其空间对应物(SPA)长5-10倍,因为光谱残差块保留了丰富的特征,保持了空间大小的不变。换句话说,SSRN中的光谱残差块比它们的空间对应体需要更大的计算能力。SSRN比CNN的训练时间长6-10倍,这意味着SSRN比CNN的计算成本更高。幸运的是,GPU的采用在很大程度上减轻了额外的计算成本,减少了训练时间。

 

  1. 讨论

实验结果验证了SSRN框架的有效性。值得注意的是,不同的深度学习模型通常更喜欢不同的超参数,这对部署这些模型构成了挑战。然而,根据实验结果,不同设置的SSRN的分类性能是稳定的。与传统的基于特征工程的机器学习方法(如核SVM)相比,深度学习模型具有四个优点:(1)自动特征提取;(2)分层非线性变换;(3)直接关注分类而不是两个独立步骤的目标函数;(4)高效利用计算硬件(特别是GPU)的能力。

在SSRNs和其他深度学习模型(例如SAE和CNN)之间存在三个主要差异。首先,SSRN采用残差连接,提高了分类精度,使深度学习模型更容易训练。第二,SSRN在两个连续的块中分别处理光谱特征和空间特征,通过这些块可以提取更多的鉴别特征。第三,由于BN在每个卷积层的操作,我们只需要数百次迭代来训练SSRN,而不是[24]中的数十万次迭代。

影响监督深度学习模型HSI分类性能的主要因素有三个:1)训练样本的数量;2)输入数据的空间大小;3)设计模型的代表性容量。由于SSRN对相对较少的土地覆盖类别获得了很高的分类精度,尽管有少量的训练样本,但我们没有使用数据增强[22]来进一步提高SSRN的分类性能。给定一个固定的模型,用于训练的数据越多,这些数据包含的信息越多,可以生成更高的分类精度深度学习模型。因此,为了进行公平的比较,我们需要在相同数量的训练样本和相同大小的每个输入样本下测试不同的模型。

本文提出了一种用于光谱空间表示学习和HSI分类的监督3-D深度学习框架。设计的SSRN包含连续的光谱和空间残差块,减轻了精度下降的现象。实验结果表明,SSRN对所有三种不同挑战的HSI数据集的分类精度都是最高的。值得注意的是,该网络使用大量少量不均匀的训练样本提供了稳健的分类性能。此外,BN策略规范了训练过程,提高了分类精度。最后,SSRN以有限的标记3-D立方体作为训练数据在三种情况下取得了最先进的结果,并且由于其统一的结构设计和深度特征学习能力,可以很容易地推广到其他遥感场景。

深度学习模型的本质是在没有特征工程的情况下自动学习输入数据的表示,因为模型本身可以在适当的建筑设计和训练过程设置下提取鉴别特征。此外,这些超参数设置取决于训练样本的数量和每个样本的空间大小。在HSI分类的情况下,一个突出的挑战是注释的不足。因此,本文将这一障碍与所提出的光谱空间残差体系结构相抗衡,该体系结构既考虑了丰富的光谱特征,又考虑了空间环境

深度学习方法被认为需要大量的标记数据进行训练[21]。然而,实验结果表明,所提出的模型具有光谱空间残差结构和适当的正则化策略,具有大量的训练样本和有限的训练样本。此外,根据灵敏度测试结果,该网络可以用较大的输入立方体提取更多的判别空间特征,简单地扩展输入数据的大小将提高分类精度。换句话说,使用空间信息较多的训练样本的HSI分类模型往往比使用空间信息较少的训练数据的模型具有优势。因此,我们主张在比较不同的分类方法时,输入HSI数据的空间大小应该是相同的。考虑到在三个广泛研究的HSI案例中的一致性能,我们认为在其他情况下,在相同的比较标准下,SSRN仍然可以优于其他机器学习竞争对手的HSI分类。