LDA主题模型

前言

(LDA)是Blei等人在2002提出的生成式主题模型。被广泛用于文本数据挖掘、图像处理、生物信息处理等领域。这篇文章主要讲讲其中主要的数学推导。

几种常见的分布

多项分布
多项分布(multinomial distribution)是一种多元离散随机变量的概率分布，是二项分布(binomial distribution)的扩展。假设重复进行 $n$ 次独立随机试验，每次试验可能出现的结果有 $k$ 种，第 $i$ 种结果出现的概率为 $p_i$ ，第 $i$ 种结果出现的次数为 $n_i$ ，如果用随机变量 $X=(X_1,X_2,...X_k)$ 表示试验所有可能结果的次数，其中 $X_i$ 表示第 $i$ 种结果出现的次数，那么随机变量 $X$ 服从多项分布，X的概率密度函数为：
$P(X_1=n_1,X_2=n_2,...X_k=n_k)=\frac{n!}{n_{1}!n_{2}!...n_{k}!}{p_1}^{n_1}{p_2}^{n_2}...{p_k}^{n_k}$
当试验的次数 $n$ 为1时，多项分布变成类别分布(categorical distribution)类别分布表示试验可能出现的 $k$ 种结果的概率
Beta分布
二项分布和Beta分布类似，不同之处在于，二项分布表示离散型数据，而Beta分布表示连续性数据。 $X$ 为连续型随机变量， $x\in[0,1]$ ，其概率密度函数为：
$f(x)=\left\{ \begin{aligned} \frac{1}{B(s,t)}x^{s-1}(1-x)^{t-1}, 0\leq x < 3 \\ 0, 其他 \end{aligned} \right.$
其中 $s>0$ 和 $t>0$ ，Beta函数的定义如下：
$B(s,t)=\int_{0}^{1}x^{s-1}(1-x)^{t-1}dx$
当 $s$ ， $t$ 是自然数时，
$B(s,t)=\frac{(s-1)!(t-1)!}{(s+t-1)!}$
狄利克雷分布
狄利克雷分布(Dirichlet distribution)是一种多元连续随机变量的概率分布，是贝塔分布(beta distribution)的扩展。在贝叶斯学习中，狄利克雷分布常作为多项分布的先验分布使用。多元连续型随机变量 $\theta=(\theta_1,\theta_2,...\theta_k)$ 的概率密度函数为：
$p(\theta|\alpha)=\frac{\Gamma(\sum_{i=1}^{k}\alpha_i)}{\prod_{i=1}^{k}\Gamma(\alpha_i)}\prod_{i=1}^{k}{\theta_i}^{\alpha_i-1}$
其中 $\sum_{i=1}^{k}\theta_i=1$ ， $\theta_i>=0$ ， $\alpha=(\alpha_1,\alpha_2,...\alpha_k)$ ， $\alpha_i>0$ ， $i=1,2,...,k$ ，则称 $\theta$ 服从参数为 $\alpha$ 的狄利克雷分布，记作 $\theta$ ~ $Dir(\alpha)$ 。其中 $\Gamma(s)$ 是伽马函数，定义为：
$\Gamma(s)=\int_{0}^{\infty}x^{s-1}e^{-x}dx,s>0$
具有性质： $\Gamma(s+1)=s\Gamma(s)$ ，当 $s$ 是自然数时， $\Gamma(s+1)=s!$ 。设 $B(\alpha)$ 为规范化因子，称为多元Beta函数， $B(\alpha)=\frac{\prod_{i=1}^{k}\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^{k}\alpha_i)}$ ，相应的狄利克雷分布的概率密度函数可以这么写： $p(\theta|\alpha)=\frac{1}{B(\alpha)}\prod_{i=1}^{k}{\theta_i}^{\alpha_i-1}$ ，此外多元Beta的积分表示为： $B(\alpha)=\int\prod_{i=1}^{k}{\theta_i}^{\alpha_i-1}dx$ ，下图给出了几种概率分布之间的关系：
共轭先验
贝叶斯学习中常使用共扼分布，如果后验分布与先验分布属于同类，则先验分布与后验分布称为共扼分布(conjugate distributions)，先验分布称为共扼先验(conjugate prior)。如果多项分布的先验分布是狄利克雷分布，则其后验分布也为狄利克雷分布，两者构成共扼分布作为先验分布的狄利克雷分布的参数又称为超参数,使用共扼分布的好处是便于从先验分布计算后验分布。下面举个例子:
设 $W=(w_1,w_2,...w_k)$ 是由 $k$ 个元素组成的集合，随机变量 $X$ 服从多项分布 $X$ ~ $Mult(n,\theta)$ ， $n=(n_1,n_2,...n_k)$ ， $\theta=(\theta_1,\theta_2,...,\theta_k)$ ;将样本数据表示为 $D$ ，目标是计算在样本数据 $D$ 给定条件下参数 $\theta$ 的后验概率。
假设随机变量 $\theta$ 服从狄利克雷分布 $p(\theta|\alpha)$ ， $\alpha=(\alpha_1,\alpha_2,...,\alpha_k)$ ，则 $\theta$ 的先验分布为：
$p(\theta|\alpha)=\frac{\Gamma(\sum_{i=1}^{k}\alpha_i)}{\prod_{i=1}^{k}\Gamma(\alpha_i)}\prod_{i=1}^{k}{\theta_i}^{\alpha_i-1}=\frac{1}{B(\alpha)}\prod_{i=1}^{k}{\theta_i}^{\alpha_i-1}$
根据贝叶斯规则，在给定样本数据 $D$ 和参数 $\alpha$ 条件下， $\theta$ 的后验概率分布是 :
$p(\theta|D,\alpha)=\frac{p(D|\theta)p(\theta|\alpha)}{p(D|\alpha)}=\frac{\prod_{i=1}^{k}{\theta_i}^{n_i}\frac{1}{B(\alpha)}{\theta_i}^{\alpha_i-1}}{\int{\prod_{i=1}^{k}\theta_i}^{n_i}\frac{1}{B(\alpha)}{\theta_i}^{\alpha_i-1}d\theta}=\frac{1}{B(\alpha+n)}\prod_{i=1}^{k}{\theta_i}^{\alpha_i+n_i-1}=Dir(\theta|\alpha+n)$
可以看出先验分布和后验分布都是狄利克雷分布，两者有不同的参数，所以狄利克雷分布是多项分布的共扼先验，狄利克雷后验分布的参数等于狄利克雷先验分布参数加上多项分布的观测 $n=(n_1,n_2,...,n_k)$ 。

狄利克雷分布模型

基本想法
潜在狄利克雷分配（LDA）是文本集合的生成概率模型；模型假设话题由单词的多项分布表示，文本由话题的多项分布表示，单词分布和话题分布的先验分布都是狄利克雷分布；文本内容的不同是由于它们的话题分布不同。
LDA模型表示文本集合的自动生成过程：首先，基于单词分布的先验分布（狄利克雷分布）生成多个单词分布，即决定多个话题内容；之后，基于话题分布的先验分布（狄利克雷分布）生成多个话题分布，即决定多个文本内容，然后，基于每一个话题分布生成话题序列，针对每一个话题，基于话题的单词分布生成单词，整体构成一个单词序列，即生成文本，重复这个过程生成所有文本。下图刻画了这一过程：

LDA模型是概率图模型，其特点是以狄利克雷分布为多项分布的先验分布；学习就是给定文本集合，通过后验概率分布的估计，推断模型的所有参数；利用LDA进行话题分析，就是对给定文本集合，学习到每个文本的话题分布，以及每个话题的单词分布。
可以认为LDA是PLSA（概率潜在语义分析）的扩展；相同点是两者都假设话题是单词的多项分布，文本是话题的多项分布；不同点是LDA使用狄利克雷分布作为先验分布，而PLSA不使用先验分布(或者说假设先验分布是均匀分布);学习过程LDA基于贝叶斯学习，而PLSA基于极大似然估计;LDA的优点是，使用先验概率分布，可以防止学习过程中产生的过拟合（over-fitting)。
模型要素
潜在狄利克雷分布(LDA)使用三个集合：单词集合 $W=(w_1,...,w_v,...,w_V)$ ，文本集合 $D=(w_1,...,w_m,...,w_M)$ ，其中 $w_m$ 是一个单词序列， $w_m=(w_{m1},...,w_{mn},...,w_{mN})$ ,话题集合 $Z=(z_1,...,z_k,...,z_K)$ 。
每一个话题 $z_k$ 由一个单词的条件概率分布 $p(w|z_k)$ 决定，分布 $p(w|z_k)$ 服从多项分布(严格意义上类别分布)，其参数为 $\varphi_k$ 。参数 $\varphi_k$ 服从狄利克雷分布(先验分布)，其超参数为 $\beta$ 。参数 $\varphi_k$ 是一个V维向量 $\varphi_k=(\varphi_{k1},\varphi_{k2},...,\varphi_{kV})$ ，其中\varphi_{kv}表示话题 $z_k$ 生成单词 $w_v$ 的概率。所有话题的参数向量构成一个 K x V 矩阵，超参数 $β$ 也是一个V维向量。每一个文本 $w_m$ 由一个话题的条件概率分布 $p(z|w_m)$ 决定，分布 $p(z|w_m)$ 服从多项分布(严格意义上类别分布)，其参数为 $\theta_m$ ，参数 $\theta_m$ 服从狄利克雷分布(先验分布)，其超参数为 $\alpha$ ，
参数 $\theta_m$ 是一个K维向量 $\theta_m=(\theta_{m1},\theta_{m2},...,\theta_{mK})$ ，其中\theta_{mk}表示文本 $w_m$ 生成话题 $z_k$ 的概率，所有文本的参数向量构成一个 M x K 矩阵，超参数 $\alpha$ 也是一个K维向量，每一个文本 $w_m$ 中的每一个单词 $w_{mn}$ 由该文本的话题分布 $p(z|w_m)$ 以及所有话题的单词分布 $p(w|z_k)$ 决定
生成过程
给定单词集合 $W$ (V个单词)，文本集合 $D$ (M个文本)，话题集合 $Z$ (K个话题)，狄利克雷分布的超参数 $\alpha$ 和 $\beta$ 。
生成话题的单词分布，随机生成 $K$ 个话题的单词分布，按照狄利克雷分布 $Dir(\beta)$ 随机生成一个参数向量 $\varphi_k$ ，作为话题 $z_k$ 的单词分布 $p(w|z_k)$ 。
生成文本的话题分布，随机生成 $M$ 个文本的话题分布，按照狄利克雷分布 $Dir(\alpha)$ 随机生成一个参数向量 $\theta_m$ ，作为文本 $w_m$ 的话题分布 $p(z|w_m)$ 。
生成文本的单词序列，随机生成 $M$ 个文本的 $N_m$ 个单词，首先按照多项分布 $Mult(\theta_m)$ 随机生成一个话题 $z_{mn}$ , 然后按照多项分布 $Mult(\varphi_{z_{mn}})$ 随机生成一个单词 $w_{mn}$ 。
文本 $w_m$ 本身是单词序列 $w_m=(w_{m1},w_{m2},...,w_{mN_m})$ ，对应着隐式的话题序列 $z_m=(z_{m1},z_{m2},...,z_{mN_m})$ 。
LDA的文本生成过程中，假定话题个数 $K$ 给定，实际通常通过实验选定，狄利克雷分布的超参数 $\alpha$ 和 $\beta$ 通常也是事先给定的，在没有其他先验知识的情况下，可以假设向量 $\alpha$ 和 $\beta$ 的所有分量均为1，这时的文本的话题分布是对称的，话题的单词分布也是对称的。

LDA的吉布斯抽样算法

潜在狄利克雷分配(LDA)的学习(参数估计)是一个复杂的最优化问题，很难精确求解，只能近似求解；常用的近似求解方法有吉布斯抽样(Gibbs sampling)和变分推理(variational inference)。

基本想法
为了估计多元随机变量 $X$ 的联合分布 $p(x)$ ，吉布斯抽样法选择 $x$ 的一个分量，固定其他分量，按照其条件概率分布进行随机抽样，依次循环对每一个分量执行这个操作，得到联合分布 $p(x)$ 的一个随机样本，重复这个过程，在燃烧期之后，得到联合概率分布 $p(x)$ 的样本集合，LDA模型的学习通常采用收缩的吉布斯抽(collapsed Gibbs sampling)方法。
通过对隐变量 $\theta$ 和 $\varphi$ 积分，得到边缘概率分布 $p(w,z|\alpha,\beta)$ ，其中变量 $w$ 可观测，变量 $z$ 不可观测。对后验概率分布 $p(z|w,\alpha,\beta)$ 进行吉布斯抽样，得到分布的样本集合 $p(z|w,\alpha,\beta)$ ，再利用这个样本集合对参数 $\theta$ 和 $\varphi$ 进行估计，最终得到LDA模型 $p(w,z,\theta,\varphi|\alpha,\beta)$ 的所有参数估计。
根据上面的分析，问题转化为对后验概率分布 $p(z|w,\alpha,\beta)$ 的吉布斯抽样，该分布表示在所有文本的单词序列给定条件下所有可能话题序列的条件概率。

结束语

本人大二学生一枚，学识尚浅，不喜勿喷，希望今日能抛砖引玉，请各位大佬一定不吝赐教！！！

前言

几种常见的分布

狄利克雷分布模型

LDA的吉布斯抽样算法

结束语

相关推荐