李宏毅 lecture-12 Semi-supervised Learning
李宏毅 lecture-12 Semi-supervised Learning
半监督学习指的就是我们拿到的data一部分有label一部分没有label.
有label的data当然就可以直接做监督学习,那没有label的data应该如何处理呢?
在机器学习领域中,我们所使用的方法可以分为判别式模型(Discriminative Model)和生成式模型(Generative Model).这里就简单说一下区别:判别式模型的model是一个概率分布,我们要学习的是这个概率分布的参数,我们给定一个输入,输出是一个概率分布,完全建立在贝叶斯概率的理论基础之上;判别式模型的model是一个函数,我们学习的就是这个函数的参数,我们给定一个输入,输出是一个确定的值.
半监督学习针对这两种模型都有不同的方法.
生成式模型
在生成式模型中我们使用的半监督学习方法主要就是EM算法.
EM算法
EM算法在RPML中大量出现:
⼀种优雅的并且强⼤的寻找带有潜在变量的模型的最大似然解的方法被称为期望最⼤化
算法( expectation-maximization algorithm ),或者 EM 算法( Dempster et al., 1977; McLachlan and Krishnan, 1997 )。
在RPML中使用EM算法的重要性在于变量中存在隐变量.
例如我们估计人群的身高,人群的年龄,性别,地域都是隐变量.会决定我们生成式模型的准确性.
其实我们在半监督学习中,没有label的data也可以用相似的想法去理解EM算法.
判别式模型
Low-density Separation
自学习
在判别式模型中,我们就换了一个方法叫做自学习.这个方法也极其简单:
- 用已有数据训练一个模型
- 把没有label的数据投进去,把label吐出来
- 选择一些这样的data和label再次训练模型
不断迭代2,3步,达到收敛
自学习方法只能用于分类问题.
下面这个图说明如果model是神经网络,我们要使用hard label,如果soft label是不起作用的.
Entropy-based Regularization
如果每次都选hard label,是不是会使精度下降,这里对unlabelled data引入熵(entropy),让entropy越小越好,所以修改loss function,可以的达到这个效果.
这个回归问题就可以叫做基于熵的正则化.
SVM
Smoothness Assumption
connected by a high density path
Cluster and then Label
Deep Autoencoder call feature
call clustering