李宏毅机器学习课程笔记:半监督学习
两种:
直推学习——将无标签数据作为测试数据
归纳学习——无标签数据不作为测试数据
为什么需要半监督学习:
收集数据很容易,但是收集有标签的数据很难
无标签数据的分布可能会提供一些信息,通常会伴随一些假设
监督学习的生成模型
生成模型的半监督学习
步骤:
1.计算每一个无标签数据的后验概率
2.更新模型
这个方法会收敛,但是初始值会影响收敛的结果
低密度分离方法
自学习
利用标签数据先训练一个模型,然后将模型代入无标签数据中得到标签,然后从无标签数据汇总选出一些加入标签数据中,重复这个过程
基于熵的正则化
熵:表示输出的分布是否集中,熵越小越好
损失函数要考虑标签数据和无标签数据两部分
半监督支持向量机
穷举无标签数据的所有可能标签,做svm,再去找边界最大,错误越小的模型。
平滑近似
假设数据相似,则标签相同
基于图的方法
确定数据是否是接近的,将数据通过图表示,两个数据是联通的,则认为是接近的
步骤:
1.计算相似度
2.增加边界:K近邻,e-neighborhood
3.给边界赋予权重
4.定义平滑度