您的位置: 首页 > 文章 > 十二、主题模型

十二、主题模型

分类: 文章 • 2024-04-17 08:03:55

- 一、pLSA
- 二、LDA模型

十二、主题模型

一、pLSA

十二、主题模型

每个文档都会在主题上有一个分布，每个主题在各个词上也有一个分布

十二、主题模型

十二、主题模型

$p (w j) = \sum_{k} [p (w j | z k) * p (z k)]$ 只是将 $p (w j)$ 变成了 $p (w j | d i)$ ， $p (w j | z k)$ 未变的原因是一旦给定了z，d和w就是独立，也就是 $p (w j | z k) = p (w j | z k, d i)$ 就省略掉了。

十二、主题模型
上式是关于w，zk，di的部分可观测的函数，所以用EM算法求解

十二、主题模型

求给定样本之下的主题的后验概率：

十二、主题模型

十二、主题模型

十二、主题模型

十二、主题模型

十二、主题模型

十二、主题模型

十二、主题模型

十二、主题模型

pLSA的进一步思考：

原来相当于是一个二层的模型，只要文档和词给定了，得到的结果就是一样的，不需要先验信息就可以完成学习，既是优势也是劣势。

十二、主题模型

二、LDA模型

主要问题：

十二、主题模型

十二、主题模型

贝叶斯模型：假设参数是不断变化的，参数本身也服从某个分布，贝叶斯学派能够得到一个稍微好点的目标函数，也能比较方便的分析相关关系。

十二、主题模型

大数据的情况是频率学派的一个逆袭，因为在数据很多的情况下，我们就不需要对其先验进行猜测了，直接利用极大似然估计就有较好的效果。

贝叶斯学派说，我可以用小样本来做事情。

十二、主题模型

如果认为所有的先验 $P (θ)$ 都是一样的话，那就退化成了极大似然估计。

共轭分布：两者满足同样的分布率

十二、主题模型

为什么要提出共轭先验分布：

十二、主题模型

十二、主题模型

平方和损失的正则化，就是假定参数theta服从高斯分布的贝叶斯学派的思想，

十二、主题模型

因为次数已知，所以是关于p的函数h(p)，求偏导=0，可得朝上的概率p，频率的程度是概率。

十二、主题模型
修正，更符合常理，但是5和10是什么？为什么可以加上，背后的理论是什么？

理论解释：

十二、主题模型

十二、主题模型

十二、主题模型

贝叶斯理论，可以使得在小样本的情况下是更合理的，+5和+10是防止过拟合。

共轭先验的推广：

十二、主题模型

多项分布的先验分布是狄利克雷分布

狄利克雷函数：

十二、主题模型

十二、主题模型

十二、主题模型

一般选定alpha是相等的，因为没有先验信息，退化成均匀分布（对称狄利克雷分布）。

十二、主题模型

十二、主题模型

alpha=1，平的，均匀分布
alpha<1，图中的情况(alpha=0.3)，取某一个维度的概率是最高的，取三个都相等的概率是最低的；
alpha>1，图中情况的反向（也就是类似于锅盖）,取某一个维度的概率是最低的，取三个维度都相等的概率是最高的。

p1,p2,p3…就是我们要求的概率，而关于概率我们做了一个超参数alpha，比如x1=x2=0的点，此时x3等于某个值，该值最大，也就是该点的概率值大，

x1+x2+x3=1，因此没必要画三个参数的图像，因为x3=1-x2-x1，也就是取得x1=a,x2=b的概率就是纵轴，即三维图是(x1,x2,ln(p(x1,x2)))

十二、主题模型

利于做收敛，词汇集中到某个点去，alpha越小，说明主题越鲜明；

alpha=1时，表示每个主题被取到的概率是一样的，说明主题最不鲜明。

当alpha继续增大的时候，假如到达了10，相当于这个文档的主题是相等的。

当我们样本数量足够大的时候，alpha的影响已经不太大了，先验的影响已经不大了。

LDA：

m个文章是样本，K个主题是我们给定的

比如第一个文章涉及了70%的武侠，30%的爱情，这就是主题分布，主题分布在每个主题上都可能发生，所以是一个多项分布，主题的参数服从狄利克雷分布，该分布的参数即为alpha。

武侠这个主题，可能会涉及到降龙十八掌、段誉、大理等，任何一个主题在词典的所有词上都有一个取到的概率，每个主题有各自特定的词分布，词分布也是多项分布，该多项分布的参数服从狄利克雷分布，参数为beta。

十二、主题模型

十二、主题模型

有K个词分布，每个词分布是一个V维的向量，

利用狄利克雷分布的参数 $α ⟹$ 决定一个主题分布 $θ_{m} ⟹$ 利用该主题分布采样出来一个主题 $z_{m, n}$ （第m个文档的第n个词应该属于哪个主题）

利用狄利克雷分布的参数 $β ⟹$ 采样一个词分布 $ϕ_{k}$ （有k个主题就有k个词分布，每个词分布是v维的）

利用采样得到的主题 $z_{m, n}$ 和该主题对应的词分布 $ϕ_{k}$ 来共同得到一个可观测的词，也就是第m个文档的第n个词。

十二、主题模型

十二、主题模型