半监督学习的简单介绍
半监督分类(semi-supervised classification):同时利用大量无标号样本和少量标号样本进行分类学习,以获得比仅利用标号样本的监督分类学习更好的分类性能。
目前的半监督分类方法可大致分为四大类:
- 生成式(generative)方法
- 大间隔半监督分类方法
- 基于图的半监督分类方法
-
协同训练(co-training)方法
学习原理
半监督分类利用无标号样本帮助提升学习性能
1.试图挖掘隐藏在无标号样本中的数据分布信息,并利用该信息指导分类;
2.为挖掘数据分布信息,必须采用某种数据分布假设;
3.最常用的数据分布假设为聚类假设(cluster assumption)和流形假设(manifold assumption)。
数据分布假设:
聚类假设
假定属于同一聚类的样本有较大可能共享相同的类标号。
等价表述:分类边界应穿越数据分布的低密度区域,从而使聚类内(高密度区域中)样本被划分在分类边界两侧,也被称为低密度分割假设 (low-density separation assumption)。
流形假设
假定数据分布在一低维流形上,流形结构可由一无向图表示,图中结点代表样本,边权代表样本间相似性。在流形结构上相似的样本具有相似类标号。