第9章 遥感专题信息提取:模式识别
第9章 遥感专题信息提取:模式识别
1.从数字遥感数据中提取地面覆盖信息的步骤
2.硬(确定性)分类和软(模糊)分类方法
3.专题信息提取
9.1 基本概念
专题信息提取:通过识别遥感数据的光谱和空间模式实现,与不同类型的土地利用及地面覆盖有关。通常用模式识别描述专题信息提取的过程。
获取专题信息过程:
- 遥感数据预处理:进行辐射校正和几何校正;
- 选择合适的分类算法;
- 采集初始训练数据(*);
- 通过特征(波段)选择来区分不同训练类别,确定最优组合波段;
- 采集补充训练数据(*),应用分类算法得到分类图;
- 进行精度评价(即误差评估)。
光谱模式识别的基本问题:对于n波段遥感数据的光谱分布,必须找到一种区分方法,以便能用最小误差、最少波段数来区分主要的地面覆盖类型。
分类误差:出现在光谱数据分布有重叠时,有如下两种类型
- 像元被分到错误的类中(弃真,错分误差)
- 像元没有分到正确的类中(纳伪,漏分误差)(噪声)
多光谱分类方法:
-
基于比例数据和区间标度数据的参数与非参数统计算法,以及可以整合名义尺度数据的非计量方法(参数方法处理正态分布且密度函数已知的遥感数据,非参数处理非正态分布且密度函数未知的遥感数据,非计量方法处理数值型和名义尺度数据)
数值型:如反射率。名义尺度数据:如第一类=林地、第二类=农业用地
-
采用监督或非监督分类方法
-
采用硬(确定性)分类或**软(模糊)**分类方法
-
采用逐像元分类(即逐像元处理整景影像)或面对对象分类方法
-
混合方法
硬分类与模糊分类的区别:
模糊分类:将现实世界的异质性和不精确的特性都考虑在内。基于“遥感探测器记录的反射或发射辐射通量来自IFOV内不同生物物理混合物(如土壤、水、植被)所构成的异质区”这一事实。
9.2 监督分类
分类过程:
- 确定分类方案
- 选取训练样区
- 特征选取
- 选择分类算法
土地利用和地面覆盖分类方案
目的:确定各类别在影像中的编号、类值对应。不同分类方案地物类别的数字表示不同的类。
地面覆盖:景观中的各类地物(如水体、农作物、森林、湿地、沥青等人工地物)。
土地利用:人类施加于地表的活动(如农业、商业、住宅等)。
硬(确定性)分类的原则:
- 互斥性——类别间不存在重叠
- 完备性——考虑景观中所有的地面覆盖类型,且无遗漏
- 层次性——亚类可按等级合并到更高级别的类中(如 独立住宅和多用户住宅区 合并到 居民地)
信息类与光谱类的本质区别:前者是人为定义的,而光谱类则是遥感数据固有的,需要分析人员进行识别并标识。
分析人员通常需要将光谱类转化为信息类以满足管理者的需求,故应对遥感系统的空间特征和光谱特征了如指掌,并能将这些系统参数与影像景及像元IFOV中的各种地物类型及其比例联系起来。
分类方案的详细程度与提供信息的遥感系统的空间/光谱分辨率之间具有一定的关系。
分类方案举例
(USGS的土地利用/地面覆盖遥感分类系统)
(NLCD 2006分类方案)
(我国LUCC分类体系(部分))
- 观察分类方案 即模糊分类方案
尚未标准化,通常由各个研究人员为特定的具体项目而设计,无法将其移植到其他环境。
训练样区选取与统计量提取
采集训练样区数据的方法:
- 收集现场信息。如树木类型、高度
- 在屏选择训练数据。分析人员在彩色CRT屏幕上查看影像,并选择所需的多边形区域
- 在屏选择训练数据的种子。用光标在影像上指定一个具体种子点,然后种子增长程序从该点坐标(x,y)开始,选择所需波段中的邻域像元值
提取统计量:均值、标准差、方差、最小值、最大值、方差 - 协方差矩阵、相关系数矩阵。这些统计量代表了各地面覆盖类的基本光谱特征信息。
若一个训练类直方图中出现多个峰值,表明所选样区中至少有两种地面覆盖类型,则需舍弃该训练数据并重新选取,直至每类直方图都是单峰为止。
选择影像分类最佳波段:特征提取
特征选取:确定能够最有效区分各种类的波段
目的:删除分析中含有冗余光谱信息的波段。可减少数据集的维数,在不影响精度的前提下使开销最小。
特征选取方法:
- 图形方法
(1)二维特征空间图
同时采用两个波段描述影像中所有像元的分布状况。特征空间图中显示的像元越亮,就表明在感兴趣的两个波段中具有该亮度值的像元越多。利用特征空间图,可深入了解影像中实际包含的信息量和波段间的相关程度。
(2)二维特征空间图的余谱平行六面体图或椭圆图
由第k波段的每个类c的训练类统计均值( μ c k \mu_{ck} μck)和标准差( σ c k \sigma_{ck} σck)生成。
(同时利用第4、5波段进行分类可得到很好的区分度)
(3)三光谱平行六面体或椭圆
可在合成的三维特征空间中同时显示3个波段的训练数据,并通过交互式调整视点的方位角和高度角来改进特征分析和选择。
- 统计方法
(1)离散度
解决 如何从n个波段中选取出最优的q个波段子集进行分类 的问题。利用监督分类训练过程中各类统计量的均值和协方差矩阵来计算。
c和d类之间的离散度 D r i v e r c d Driver_{cd} Drivercd根据下式计算:
D r i v e r c d = 1 2 t r [ ( V c − V d ) ( V d − 1 − V c − 1 ) ] + 1 2 t r [ ( V c − 1 + V d − 1 ) ( M c − M d ) ( M c − M d ) T ] Driver_{cd}=\frac1 2tr[(V_c-V_d)(V_d^{-1}-V_c^{-1})]+\frac1 2tr[(V_c^{-1}+V_d^{-1})(M_c-M_d)(M_c-M_d)^T] Drivercd=21tr[(Vc−Vd)(Vd−1−Vc−1)]+21tr[(Vc−1+Vd−1)(Mc−Md)(Mc−Md)T]
其中, t r [ ] tr[ ] tr[]是矩阵的迹(矩阵主对角线元素之和); V c V_c Vc、 V d V_d Vd是类c、d的协方差矩阵; M c M_c Mc、 M d M_d Md是类c、d的均值向量。
多于两个类时计算平均离散度:
D r i v e r a v g = ∑ c = 1 m − 1 ∑ d = c + 1 m D r i v e r c d C Driver_{avg}=\frac {\displaystyle \sum^{m-1}_{c=1}\displaystyle \sum^m_{d=c+1}Driver_{cd}}C Driveravg=Cc=1∑m−1d=c+1∑mDrivercd
(2)Bhattacharyya距离
(3)Jeffreys-Matustia距离
(4)相关矩阵
使用植被或其他类型的指数以确定最佳波段
(LAI:叶面积指数)
(5)主成分分析(PCA)
进行特征选取并降低了作为训练与分类数据集的维度
选择合适的分类算法
- 参数分类算法
- 假定在监督分类的训练阶段,每个波段上每类的观测测度向量 X c X_c Xc服从高斯分布
- 非参数分类算法
- 一维密度分割法(第8章)
- 平行六面体方法
- 最小距离法
- 最近邻法
- 最大似然法(使用最广泛)
- 神经网络和专家系统分析法(第10章)
最大似然法
- 计算某个像元属于预先设置好的m类数据集中的每一类的概率;
- 将该像元划分到概率最大的那一类
9.3 非监督分类(聚类)
链式非监督分类
遍历多光谱数据集两次。从多光谱数据集的原点开始(第1行、列)按从左到右的顺序像链子一样对像元进行处理,处理完一行后再进行下一行。
第一次:建立聚类。程序读入整个数据集并按顺序建立聚类(光谱空间中的点群),使均值向量和每个点群相关联
第二次:采用最小距离分类,将整个数据集逐像元划分到第一次遍历建立的各个均值向量中。
ISODATA非监督分类
ISODATA:Iterative Self-Organizing Data Analysis Technique,迭代自组织数据分析技术。其实是k-均值聚类算法的改进。
分析人员需给出:
- C m a x C_{max} Cmax:算法确定的最大聚类数
- T T T:两次迭代之间,类值不变像元所占的最大百分比
- M M M:对像元进行划分和重新计算聚类均值向量的最大次数
- 每个聚类中最少像元数(%):如果某个聚类像元占总像元数的百分比小于最小允许值,就删除该聚类,并把属于它的像元分配到另一可选聚类中。这也会影响到是否将某个聚类分解(参看最大标准差)。默认的最小百分比常设为0.01。
- 最大标准差( σ m a x \sigma_{max} σmax):当某聚类的标准差超过指定的最大标准差,且类中的像元数大于指定的最少像元数的两倍时,就该将聚类分解为两个。
- 聚类分解的分离值:若该值从0.0开始变化,那么,取代标准差来确定新均值向量,然后加上和减去聚类分解分离值后的位置。
- 聚类均值间最小距离( C C C):如果两聚类间的加权距离小于该值,就将这两个聚类合并。其默认值通常为0.3。
聚类过程:
初始任意分组:在特征空间中指定点之间沿着一个n维向量进行所有 C m a x C_{max} Cmax个聚类的初始任意划分
第一次迭代:遍历数据库,将每个候选像元与每个聚类均值进行比较,并分配到欧氏距离最近的聚类中
第2到
M
M
M次迭代:根据划分到各个聚类中像元的实际光谱位置得出每个聚类的新均值,并重复进行划分过程。
非监督聚类整理
数据集中仍有一些有价值信息未被提取出来。
整理过程:
- 将难以标识的与q个聚类相关的所有像元重新编码为1,同时生成一个二进制掩膜文件
- 用二进制掩膜文件和原始遥感数据文件进行掩膜处理,掩膜程序输出结果是一个新的多波段影像文件,其中仅含之前聚类不合适的像元
- 对该文件再一次进行非监督分类
掩膜处理可简单理解为两幅图像之间进行的各种位运算操作
掩膜是由0和1组成的一个二进制图像。当在某一功能中应用掩膜时,1值区域被处理,被屏蔽的0值区域不被包括在计算中。通过指定的数据值、数据范围、有限或无限值、感兴趣区和注释文件来定义图像掩膜,也可以应用上述选项的任意组合作为输入来建立掩膜。
https://blog.****.net/bitcarmanlee/article/details/79132017?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param