李宏毅机器学习课程笔记：半监督学习

两种：

直推学习——将无标签数据作为测试数据

归纳学习——无标签数据不作为测试数据

为什么需要半监督学习：

收集数据很容易，但是收集有标签的数据很难

无标签数据的分布可能会提供一些信息，通常会伴随一些假设

监督学习的生成模型

李宏毅机器学习课程笔记：半监督学习

生成模型的半监督学习

李宏毅机器学习课程笔记：半监督学习

步骤：

1.计算每一个无标签数据的后验概率

2.更新模型

李宏毅机器学习课程笔记：半监督学习

这个方法会收敛，但是初始值会影响收敛的结果

低密度分离方法

自学习

利用标签数据先训练一个模型，然后将模型代入无标签数据中得到标签，然后从无标签数据汇总选出一些加入标签数据中，重复这个过程

李宏毅机器学习课程笔记：半监督学习

基于熵的正则化

熵：表示输出的分布是否集中，熵越小越好

李宏毅机器学习课程笔记：半监督学习

损失函数要考虑标签数据和无标签数据两部分

李宏毅机器学习课程笔记：半监督学习

半监督支持向量机

穷举无标签数据的所有可能标签，做svm，再去找边界最大，错误越小的模型。

李宏毅机器学习课程笔记：半监督学习

平滑近似

假设数据相似，则标签相同

李宏毅机器学习课程笔记：半监督学习

基于图的方法

确定数据是否是接近的，将数据通过图表示，两个数据是联通的，则认为是接近的

李宏毅机器学习课程笔记：半监督学习

步骤：

1.计算相似度

2.增加边界：K近邻，e-neighborhood

3.给边界赋予权重

4.定义平滑度

李宏毅机器学习课程笔记：半监督学习