空谱结合多标准的主动学习用于高光谱分类

摘要

阶段1首先使用PCA降维,然后使用形态学的腐蚀膨胀方法获取一系列图像;阶段2引入了一种新的基于uncertainty、diversity和聚类假设的query function,使用主动学习。

介绍

降维解决了维度灾难的问题;
解决样本数目不够的两种方法:主动学习和半监督学习。其中主动学习的核心在于query function的选择,主流的两种选择方法,一是选取信息量最大的一个样本;另一种是选择一个batch。

提出的方法

A. 空谱特征提取

PCA降维至l维
借鉴二维图像处理中腐蚀和膨胀滤波器,对降维后的图像做opening和closing操作,形成一系列图。记为

EMP(H)={MP(PC1),MP(PC2),...MP(PCl)}

l个主元,每个主元做opening和closing操作后产生2t张图,算上本身因此H维度为mn(2t+1)l

B. 主动学习方法

  1. 不确定性
    MCLU(multiclass label uncertainty):使用n binary SVM, 样本最有可能属于的两个类别,两个分类confidence作差,差越大,说明属于第一类的confidence更高,差越小说明样本在两类之间纠结,即样本的uncertainty越大。
    空谱结合多标准的主动学习用于高光谱分类
  2. diversity
    使用MCLU选择出来的样本的冗余可能会很大,可以采用样本的多样性来减少冗余。
    x1,x2,...,xm 是上一步基于MCLU选出的m个最不确定的样本,在其中计算互相之间的欧几里得距离,从中选择h个样本。即:
    max{i=1hminij{d(xi,xj)}}
  3. cluster assumption criterion(聚类假设准则)
    聚类假设:类之间的决策边界是在特征空间中low-density 区域。因此在low-density的区域内的样本包含了更多信息。(intuition是在决策边界附近的样本不确定性高,包含更多信息,类似SVM中的vector)
    使用K均值聚类,得到聚类中心。定义一个簇的density为:
    den(Ci)=1KxiKNN(μi)d(μi,xi)

    其中KNN表示距聚类中心最近的K个点。
    定义一个样本xi 的density为其所在簇的density。
  4. 遗传算法选择最具信息量的样本
    遗传算法指路: https://blog.****.net/u010451580/article/details/51178225
    选择m个最不确定的样本后,再从其中使用GA算法选择h个样本。

GA算法
开始循环直至找到满意的解。
1.评估每条染色体所对应个体的适应度。
2.遵照适应度越高,选择概率越大的原则,从种群中选择两个个体作为父方和母方。
3.抽取父母双方的染色体,进行交叉,产生子代。
4.对子代的染色体进行变异。
5.重复2,3,4步骤,直到新种群的产生。
结束循环。

染色体代表:长为h×s的染色体表示选择的样本。其中s bit表示一个样本。(遗传算法中每一条染色体,对应着遗传算法的一个解决方案)
适应度方程(fitness function):
空谱结合多标准的主动学习用于高光谱分类
(第一项uncertainty的指标cc越小越uncertain越好,第二项除去负号剩下的是diversity,第三项是密度越小越说明样本在低维空间)
最小化适应度方程能找出最具有信息的样本,作为主动学习的输入。
选择:随机选择
交叉:交叉点在染色体上随机选择

算法过程

空谱结合多标准的主动学习用于高光谱分类

数据集

肯尼迪航天中心KSC、 PAVIA、IndianP

实验

Z-test做两种算法之间的显著性检验。

JSTARS 2017/12
A Spectral-Spatial Multicriteria Active Learning Technique for Hyperspectral Image Classification, Swarnajyoti Patra , Member, IEEE, Kaushal Bhardwaj, and Lorenzo Bruzzone , Fellow, IEEE