LDA主题模型

LDA是一种基于概率模型的主题模型算法(generative probabilistic model)，用来识别大规模文档集或者语料库中隐含的主题信息。对于语料库中的每篇文档，LDA定义了如下生成过程：

对每一篇文档，从主题分布中抽一个主题
从上述被抽到的主题对应的单词分布中抽一个单词
重复上述过程直至遍历文档中的每个词

LDA认为每篇文档是多个主题混合而成，而每个主题可以由多个词的概率表征。

背景知识

共轭前驱分布（conjugate prior）

In Bayesian probability theory, if the posterior distribution $p (θ | x)$ are in the same family as the prior distribution $p (θ)$ , the prior and the posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function.

如果后验分布和先验分布同属于一个函数族，那么后验和先验称为共轭分布，先验被称为似然函数的共轭先验分布。Beta分布是二项分布的共轭先验分布，Dirichlet分布是多项分布的共轭先验分布。

根据贝叶斯规则，后验分布=似然函数*先验分布：

p (θ | x) = \frac{p (x | θ) p (θ)}{p (x)} = \frac{p (x | θ) p (θ)}{\int p (x | θ) p (θ) d θ} \propto p (x | θ) p (θ)

其中

p (x | θ)

为likelihood，

p (θ)

为prior belief，

p (x)

为evidence。

Dirichlet Distribution

Dirichlet分布是描述 $k (k \geq 2)$ 个变量 $X_{1}, X_{2}, \dots, X_{k}$ 的概率分布，其中 $x_{i} \in (0, 1), \sum_{i = 1}^{k} x_{i} = 1$ 。Dirichlet分布的参数为 $\vec{α} = {α_{1}, α_{2}, \dots, α_{k}}$ ，其中 $α_{i} > 0$ （不需要是整数，只需要是正实数即可）。

$α_{i}$ 越大，赋予 $X_{i}$ 的权重就越多( $\sum_{i} x_{i} = 1$ )
当 $α_{i}$ 相等的时候，分布是对称的
当 $α_{i} < 1$ 时，相当于一个anti-weight把 $x_{i}$ 推到一些极点(push away toward extremes)
当 $α_{i} > 1$ 时，会使得 $x_{i}$ 聚集在中心值
$α_{1} = \dots = α_{k} = 1$ 时，均匀分布

下图所展示的是三元Dirichlet分布，参数分别为：
1. $α_{1} = α_{2} = α_{3} = 1$
2. $α_{1} = α_{2} = α_{3} = 10$
3. $α_{1} = 1, α_{2} = 10, α_{3} = 5$
4. $α_{1} = α_{2} = α_{3} = 0.2$

LDA

在LDA模型中，一篇文档生成的方式如下：

1. 从狄利克雷分布

\vec{α}

中取样生成文档

m

的主题分布

{\vec{θ}}_{m}

2. 从主题的多项式分布

{\vec{θ}}_{m}

中取样生成文档

m

第

n

个词的主题

z_{m, n}

3. 从

K

个topic-word的狄利克雷分布中，选择

k = z_{m, n}

的Dirichlet 分布

{\vec{ϕ}}_{k}

，取样生成主题对应的词语分布
4. 从词语的多项式分布中采样最终生成词语

w_{m, n}

通俗理解LDA
LDA算法漫游指南
What exactly is the alpha in the Dirichlet distribution?
LDA数学八卦

LDA主题模型

LDA主题模型

背景知识

共轭前驱分布（conjugate prior）

Dirichlet Distribution

LDA

相关推荐