十二、主题模型
一、pLSA
每个文档都会在主题上有一个分布,每个主题在各个词上也有一个分布
只是将变成了,未变的原因是一旦给定了z,d和w就是独立,也就是就省略掉了。
上式是关于w,zk,di的部分可观测的函数,所以用EM算法求解
求给定样本之下的主题的后验概率:
pLSA的进一步思考:
原来相当于是一个二层的模型,只要文档和词给定了,得到的结果就是一样的,不需要先验信息就可以完成学习,既是优势也是劣势。
二、LDA模型
主要问题:
贝叶斯模型:假设参数是不断变化的,参数本身也服从某个分布,贝叶斯学派能够得到一个稍微好点的目标函数,也能比较方便的分析相关关系。
大数据的情况是频率学派的一个逆袭,因为在数据很多的情况下,我们就不需要对其先验进行猜测了,直接利用极大似然估计就有较好的效果。
贝叶斯学派说,我可以用小样本来做事情。
如果认为所有的先验都是一样的话,那就退化成了极大似然估计。
共轭分布:两者满足同样的分布率
为什么要提出共轭先验分布:
平方和损失的正则化,就是假定参数theta服从高斯分布的贝叶斯学派的思想,
因为次数已知,所以是关于p的函数h(p),求偏导=0,可得朝上的概率p,频率的程度是概率。
修正,更符合常理,但是5和10是什么?为什么可以加上,背后的理论是什么?
理论解释:
贝叶斯理论,可以使得在小样本的情况下是更合理的,+5和+10是防止过拟合。
共轭先验的推广:
多项分布的先验分布是狄利克雷分布
狄利克雷函数:
一般选定alpha是相等的,因为没有先验信息,退化成均匀分布(对称狄利克雷分布)。
alpha=1,平的,均匀分布
alpha<1,图中的情况(alpha=0.3),取某一个维度的概率是最高的,取三个都相等的概率是最低的;
alpha>1,图中情况的反向(也就是类似于锅盖),取某一个维度的概率是最低的,取三个维度都相等的概率是最高的。
p1,p2,p3…就是我们要求的概率,而关于概率我们做了一个超参数alpha,比如x1=x2=0的点,此时x3等于某个值,该值最大,也就是该点的概率值大,
x1+x2+x3=1,因此没必要画三个参数的图像,因为x3=1-x2-x1,也就是取得x1=a,x2=b的概率就是纵轴,即三维图是(x1,x2,ln(p(x1,x2)))
利于做收敛,词汇集中到某个点去,alpha越小,说明主题越鲜明;
alpha=1时,表示每个主题被取到的概率是一样的,说明主题最不鲜明。
当alpha继续增大的时候,假如到达了10,相当于这个文档的主题是相等的。
当我们样本数量足够大的时候,alpha的影响已经不太大了,先验的影响已经不大了。
LDA:
m个文章是样本,K个主题是我们给定的
比如第一个文章涉及了70%的武侠,30%的爱情,这就是主题分布,主题分布在每个主题上都可能发生,所以是一个多项分布,主题的参数服从狄利克雷分布,该分布的参数即为alpha。
武侠这个主题,可能会涉及到降龙十八掌、段誉、大理等,任何一个主题在词典的所有词上都有一个取到的概率,每个主题有各自特定的词分布,词分布也是多项分布,该多项分布的参数服从狄利克雷分布,参数为beta。
有K个词分布,每个词分布是一个V维的向量,
利用狄利克雷分布的参数决定一个主题分布利用该主题分布采样出来一个主题(第m个文档的第n个词应该属于哪个主题)
利用狄利克雷分布的参数采样一个词分布(有k个主题就有k个词分布,每个词分布是v维的)
利用采样得到的主题和该主题对应的词分布来共同得到一个可观测的词,也就是第m个文档的第n个词。