周志华 机器学习 Day24

图半监督学习

给定一个数据集,我们可将其映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的“强度”正比于样本之间的相似度(或相关性)。我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色。于是,半监督学习就对应于“颜色”在图上扩散或传播的过程。由于一个图对应了一个矩阵,这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析。

周志华 机器学习 Day24

周志华 机器学习 Day24

周志华 机器学习 Day24    周志华 机器学习 Day24

 

周志华 机器学习 Day24

基于分歧的方法

基于分歧的方法使用多学习器,而学习器之间的“分歧”对未标记数据的利用至关重要。“协同训练”是此类方法的重要代表,它最初是针对“多视图”数据设计的,因此也被看做“多视图学习”的代表。

在不少现实应用中,一个数据对象往往同时拥有多个“属性集”,每个属性集就构成了一个“视图”。

周志华 机器学习 Day24

 

周志华 机器学习 Day24

半监督聚类

聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类来利用监督信息以获得更好的聚类效果。

聚类任务中获得的监督信息大致有两种类型。第一种类型是“必连”与“勿连”约束,前者是指样本必属于同一个簇,后者是指样本必不属于用一个簇;第二种类型的监督信息则是少量的有标记样本。

约束k均值算法是利用第一类监督信息的代表。

周志华 机器学习 Day24

周志华 机器学习 Day24

周志华 机器学习 Day24