李宏毅机器学习课程笔记:半监督学习

两种:

直推学习——将无标签数据作为测试数据

归纳学习——无标签数据不作为测试数据

 

为什么需要半监督学习:

收集数据很容易,但是收集有标签的数据很难

无标签数据的分布可能会提供一些信息,通常会伴随一些假设

 

监督学习的生成模型

李宏毅机器学习课程笔记:半监督学习

生成模型的半监督学习

李宏毅机器学习课程笔记:半监督学习

步骤:

1.计算每一个无标签数据的后验概率

2.更新模型

李宏毅机器学习课程笔记:半监督学习

这个方法会收敛,但是初始值会影响收敛的结果

 

低密度分离方法

自学习

利用标签数据先训练一个模型,然后将模型代入无标签数据中得到标签,然后从无标签数据汇总选出一些加入标签数据中,重复这个过程

李宏毅机器学习课程笔记:半监督学习

基于熵的正则化

熵:表示输出的分布是否集中,熵越小越好

李宏毅机器学习课程笔记:半监督学习

损失函数要考虑标签数据和无标签数据两部分

李宏毅机器学习课程笔记:半监督学习

 

半监督支持向量机

穷举无标签数据的所有可能标签,做svm,再去找边界最大,错误越小的模型。

李宏毅机器学习课程笔记:半监督学习

 

平滑近似

假设数据相似,则标签相同

李宏毅机器学习课程笔记:半监督学习

 

基于图的方法

确定数据是否是接近的,将数据通过图表示,两个数据是联通的,则认为是接近的

李宏毅机器学习课程笔记:半监督学习

步骤:

1.计算相似度

2.增加边界:K近邻,e-neighborhood

3.给边界赋予权重

4.定义平滑度

李宏毅机器学习课程笔记:半监督学习

李宏毅机器学习课程笔记:半监督学习