结合主动学习和半监督的高光谱分类

摘要 解决高光谱图像中样本不足的两种途径有主动学习和半监督学习。前者提高样本的质量,后者试图提高样本数量。 代表信息:有监督的聚类结果获取未标记样本的重要的结构信息。结合主动学习,结合判别信息(SVM分类器)。

介绍

主动学习:考察未标记数据,选择信息量最大的(most informative)的样本加入下一次迭代。选中的样本标记后加入L集(labeled),并从U集(unlabeled)中移除。主动学习需要人力去标记一些样本。
半监督学习:更关注未标记数据,以无监督的方式获取信息。
本文方法:DRDbSSAL: discovering representativeness and discriminativeness by semisupervised active learning. representativeness代表性试图捕捉未标记数据的整体分布,discriminativeness在给定的标记样本下提高分类准确率。两者之间有一个tradeoff。

相关工作

主动学习

选择最不确定的样本
1. entropy query-by-bagging(EQB)算法,考虑学习者中最不一致的样本
2. 基于后验概率的方法,度量候选样本的不确定性
3. 候选样本的不确定性通过衡量其与分类器的margin来表示,比如SVM
考虑uncertainty和diversity,用到的工具有SVM、kernel k means、SOM神经网络等

半监督学习

结合主动学习的方法,主动学习选择信息量最大的样本交给人类专家进行标记,剩余未标记的数据由分类器分类。但以往方法更多关注分类器,也就是判别(discriminative)信息,忽视了代表representative信息。本文方式就可以挖掘到未标记样本的代表信息。

本文方法

记总样本集为D,已知标签的样本集为L,未知的为U(主动学习的candidate pool)。U中的一些样本可以被分给伪标签来改进训练模型,记为T,剩余的不能分配给伪标签的记为S。

A. 主动学习的query function

query function是主动学习的关键,其选择最具信息量的样本交给人类专家做标记。本文提出的DRDbSSAL方法采用了MCLU这种衡量的方法,multiclass level uncertainty。
binary SVM分类器,one-against-all结构,每个样本xU 到每个hyperplane的距离表示为{f1(x),f2(x),...,fn(x)}。有以下计算:
结合主动学习和半监督的高光谱分类
根据c(x)大小来选择样本。
这里的intuition是:

B. 代表信息的挖掘和验证

聚类,一种常用的无监督分类方法,可以用来挖掘未标记样本的数据结构或者代表信息。在DRDbSSAL中,因为有标记样本太有限,引入一种有监督的聚类方法。
首先将数据集D通过k均值聚类分为C个簇,即

D=D1D2...DC

每个簇不停地再划分
Di=PunlabeledPlabeled

方法示意图
结合主动学习和半监督的高光谱分类
不断聚类,目的是最终所有小的簇要不全是未标记的,要不就是只有一种标记的样本。
算法过程:
结合主动学习和半监督的高光谱分类
由于有标记的样本是非常有限的,因为有很大可能会剩下完全不包含有标记样本的簇,这时候放弃。只保留最终带有标记样本的簇。

C. 判别信息的挖掘和验证

首先使用SVM1训练已标记的样本,然后使用MCLU从U中选择h个包含最多信息的样本给人类专家标记,更新L 和 U。
再以L训练SVM 2,。基于两个分类结果,如果一个未标记样本的两次结果一样,有很大信息将其归类,记它的标签为伪标签。第二次迭代中训练SVM1 2就可以采用伪标签的信息了。

D. 方法流程图

结合主动学习和半监督的高光谱分类
结合主动学习和半监督的高光谱分类
数据集D分为L和U
T是带有伪标签的样本,初始T为空
S是不能被分配伪标签的样本,初始S=U
迭代过程:将数据D基于L的标签使用有监督的聚类得到结果Z1;使用L和T训练SVM1;从S中使用MCLU选择h个样本标记,更新L和U;将数据D再次以L使用有监督的聚类得到结果Z2;使用L训练SVM2。将U输入SVM1和2中得到结果V1 V2
更新T,包含三种情况,除去四个分类结果都不相同的。
Intuition: 两个SVM分类器结果及有监督的聚类方法结果,综合判定。结果Z表示了无标记样本的代表信息,结果V表示了判别信息。在一次迭代中包含了主动学习选取的h个样本,h标签加入前后的两次SVM分类结果如果不相同,但是分别与结果Z一致,仍可以为其分配伪标签。如果四次结果都不相同,那表示完全无法确定,留到下一次迭代。

实验与分析

数据集:BOT来自NASA;肯尼迪航空中心;Pavia大学;IndianP;
实验设计:60%作为训练样本,40%测试。首先每类样本中随机选择10个作为初始的标记后的数据,剩下的作为主动学习的候选样本。每次迭代新加入20个样本。
结果与分析:前三个数据集直到1000个样本被标记后停止,第四个直到2000个样本被标记后停止迭代。
T-test 学生检验

文献
A Novel Semisupervised Active-Learning Algorithm for Hyperspectral Image Classification, TGRS 2017
Zengmao Wang, Bo Du, Senior Member, IEEE, Lefei Zhang, Member, IEEE, Liangpei Zhang, Senior Member, IEEE, and Xiuping Jia, Senior Member, IEEE