半监督学习是指在模型训练阶段同时利用有标签数据和无标签数据。我之前介绍过的半监督学习方法包括
- 基于分歧的半监督学习方法
机器学习教程 之 半监督学习 Tri-training方法 (论文、数据集、代码)
机器学习教程 之 半监督学习 Co-training 协同训练 (论文、算法、数据集、代码)
机器学习教程 之 半监督学习 Coreg 协同回归算法 (论文、算法、数据集、代码)
- 基于图的半监督学习方法
DeepLearning | 图注意力网络Graph Attention Network(GAT)论文、模型、代码解析
DeepLearning | 图卷积神经网络(GCN)解析(论文、算法、代码)
DeepLearning | 图卷积网络基于拓扑结构的分类(T-GCN)
机器学习教程 之 半监督学习 基于图正则项的半监督极限学习机
今天介绍的半监督极限学习机也是一种基于图的半监督学习方法,论文:
Semi-supervised and unsupervised extreme learning machines
不同于以上三种,这里的图指的是图正则项而不是图卷积。在实际运用中,作者发现很多该模型的很好的性质,比如可以运用于我们熟悉的归纳式学习,求解十分迅速并且是最优解析解等,也可以很容易的从分类任务拓展到回归任务。因此,在这里作一个详细的介绍。
对于模型的复现,作者参考了众多论文,给该模型做了一个非常强大的实现,下载连接放在文末的公众号里。同时,值得一提的是,极限学习与之前介绍的宽度学习是非常相似的,之前写过相关博客,可以参考
DeepLearning | Broad Learning System 宽度学习系统 : 高效增量式浅层神经网络
一、极限学习机
对于有监督的学习任务,一个包含N个样本的训练集表示为{X,Y}={xi,yi}i=1N。 这里,xi是一个一维向量表示样本,yi是一个一维的01向量,其中表示xi类别的那个维度为1,其余的为0,即独热编码后的标签。极限学习机(ELM)想要基于该训练机学习一个从x到y的映射函数
通常ELM的训练分为两个阶段。
第一个阶段是通过随机映射来产生指定数量的特征,映射可以是任意的非线性连续函数,比如Sigmoid和Gaussian函数
1)Sigmoid函数
g(x,θ)=1+exp(−(ax+b))1
2)Gaussian 函数
g(x,θ)=exp(−b∣∣x−a∣∣)
这里 θ={a,b} 是随机产生的映射参数,∣∣⋅∣∣表示二范数。
随机产生各式的特征使得ELM和普通前向网络不同,只需要训练特征和输出之前的映射,大大减少了训练的时间和步骤。这里记xi随机产生的特征为h(xi),特征维度是任意的指定值。
ELM的第二个阶段是线性求解特征和输出直接的映射,目标函数记为
min2Ci=1∑N∣∣yi−h(xi)β∣∣+21∣∣β∣∣
这里的β是我们需要求解的模型参数,损失的第一项表示模型的预测损失,C是预测损失的罚系数,第二项表示的是对模型参数的二范数正则。
该损失函数的矩阵形式为
minLELM=2C∣∣Y−Hβ∣∣+21∣∣β∣∣
其中H=[h(x1),...,h(xN)]是所有样本的特征。
ELM的解
当H的行大于列时,模型是过定义的,解为:
β∗=(HTH+CI)−1HTY
这里I是单位阵。
但当H的列大于行时,模型是欠定义的,解为:
β∗=HT(HHT+CI)−1Y
以上就是对ELM的介绍和求解,ELM的性能影响比较大的是随机特征的产生,这里操作空间比较大,不同方式产生的特征和特征的数量都会很大程度上影响模型性能。
二、图正则项
半监督学习的建立往往基于两个假设
1)有标签数据Xl和无标签数据Xu服从同一分布P
2)如果两个样本点x1和x2是相似的,那么它们的条件概率P(y1∣x1)和P(y2∣x2)也应该是相似的。
该思想被图正则项定义为损失函数如下
Lm=21i,j∑wij∣∣P(y∣xi)−P(y∣xj)∣∣
这里wij是xi和xj的相似度。
值得一提的是相似度矩阵W=[wij]往往是稀疏的。因为我们仅仅当xi和xj很接近的时候,才将wij设置为一个非零值,比如,xi需要是xj的k近邻。wij的值通常根据高斯指数函数计算exp(−∣∣xi−xj∣∣/2σ),或者直接简单设置为1.
直观的,当x的变化很小时,正则项Lm惩罚了条件概率P(y∣x)大的变化。由于真实的条件概率难以计算,该正则项可以被估计为
L^m=21i,j∑wij∣∣y^i−y^j∣∣
其中, y^ 是对x的预测值。
上式的矩阵形式可以写为
L^m=Tr(Y^TLY^)
其中Tr(⋅)表示矩阵的迹, L=D−W 被称为拉普拉斯图矩阵,D是对角矩阵,对角元素为Dii=∑j=1l+uwij。通常,L会被规范化为L=D−1/2LD−1/2。
以上就是对图正则项的介绍,我们可以看到,定义的L^m是同时适用于有标签或者无标签数据的,因此,它可以很方便的被应用半监督学习。
三、半监督极限学习机
这里我们记有标签数据集为{Xl,Yl}={xi,yi}i=1l,无标签数据集记为{Xu,Yu}={xi,yi}i=1u,其中l和u是样本数量。
半监督极限学习机(SSELM)的目标函数为:
minLELM=21∣∣C21(Y−Hβ)∣∣+21∣∣β∣∣+2λTr(βTHTLHβ)
上式中 Y~∈R(l+u)×n0,它的前l行等于Yl, 后u行等于0。C是一个(l+u)×(l+u)的对角矩阵,它的前l个对角元素为C0/Nti, 后u个对角元素为0. C0是任意给定值,Nti是第i个类别中样本的数量,这意味着SSELM是损失敏感的。
同样的,对于SSELM的求解,我们有
当有标签样本数量比特征数量多时
β∗=(I+HTCH+λHTLH)−1HTCY~
当有标签样本数量比特征数量少时
β∗=HT(I+CHHT+λLHHT)−1CY~
以上就是SSELM的模型及求解,总而言之,相比于普通的ELM,SSELM引入了损失敏感和图正则项来进行提升,其中正则项的引入允许模型使用无标签样本,从而进行半监督的学习。SSELM的算法可以总结如下:

四、实验结果
这里摆一些论文里的实验结果
数据集

训练时间比较

准确率

五、更多资源下载

有问题可以私信博主,点赞关注的一般都会回复,一起努力,谢谢支持。
微信搜索“老和山算法指南”获取下载链接与技术交流群