文本建模之Unigram Model，PLSA与LDA

LDA（Latent Dirichlet Allocation）是一个优美的概率图模型，可以用来寻找文本的主题。最近系统的学习了一下这个模型，主要参考了《LDA八卦》和July的博客《通俗理解LDA主题模型》。本文主要对文本建模进行梳理，其中的涉及的数学知识将在另外的博客中讲解。

1、Unigram Model

1.1、频率学派

Unigram Model是最简单的文本模型，认为一篇文档的生成过程是从一个词袋（bag of words）中不断取词的过程。

上帝只有一枚骰子，这个骰子有 $V$ 面，每一面对应一个词，各面出现概率不一；
上帝每抛一次骰子，抛出的面就对应产生一个词；如果要生成一篇包含n个词的文档，只需要独立抛骰子n次。

这个模型中唯一需要确定的是骰子每一面（也就是每个词）发生的概率，记为 $\vec{p} = (p_{1}, p_{2}, \dots, p_{V})$ 。因为每次抛骰子是独立的，因此一篇包含N个词的文档的生成概率为：

p (\vec{w}) = p (w_{1}, w_{2}, \dots, w_{N}) = \prod_{n = 1}^{N} p (w_{n})

因为各语料相互独立，所以语料库M篇文档的生成概率是：

p (W) = p (\vec{w_{1}}) p (\vec{w_{2}}) \dots p (\vec{w_{M}}) = \prod_{m = 1}^{M} \prod_{n = 1}^{N} p (w_{m n})

$w_{m n}$ 表示第m篇文档中第n个词。假设语料中总的单词数目为N，V个词中每个词产生次数为 $n_{i}$ ，有 $\vec{n} = (n_{1}, n_{2}, \dots, n_{V})$ ， $n_{1} + n_{2} + \dots + n_{V} = N$ 满足多项式分布

p (\vec{n}) = M u l t i (\vec{n} | \vec{p}, N) = \begin{matrix} (\begin{matrix} N \\ \vec{n} \end{matrix}) \end{matrix} \prod_{v = 1}^{V} p_{v}^{n_{v}}

此时，语料相当于是V个单词在N次取值试验组合中的一种，所以

p (W) = \prod_{v = 1}^{V} p_{v}^{n_{v}}

下面就是要通过观测到的语料去估计每个单词产生概率 $\vec{p}$ 。按照频率学派的观点（参数虽然未知，但是其取值是固定的），可以采用最大似然估计，于是参数 $\vec{p}$ 的估计值是

\hat{p_{v}} = \frac{n_{v}}{N}

其图模型为

方框表示重复，图中灰色圆圈的w表示可观测变量，N表示一篇文档中包含N个单词，M表示生成M篇文档。

1.2、贝叶斯学派

但是按照贝叶斯学派的观点，参数 $\vec{p}$ 不仅未知，且其取值也未定，也就是说骰子不是唯一固定的，它也是一个随机变量，在生成文本之前，使用哪个骰子是不确定的。所以按照贝叶斯学派的观点，文本生成过程如下：

上帝有一个装有无数骰子的坛子，里面每个骰子有 $V$ 面；
每次上帝从坛子中取出一个骰子，然后不断的抛这枚骰子，产生语料中所有的词。

坛子中骰子 $\vec{p}$ 服从一个概率分布 $p (\vec{p})$ ，这个分布称为参数 $\vec{p}$ 的先验分布。此时对应的概率图模型如下：
由于我们不知道上帝使用了哪一枚骰子，所以每一枚骰子都有可能依据概率 $p (\vec{p})$ 被选中，在使用该骰子时语料产生的概率是条件概率 $p (W | \vec{p})$ ，所以最终语料产生的概率为：

p (W) = \int p (W | \vec{p}) p (\vec{p}) d \vec{p}

由上面1.1的推导， $p (\vec{n})$ 符合多项式分布，也就可以近似认为 $p (W | \vec{p})$ 符合多项式分布，所以先验分布的一个比较好的选择是多项式分布的共轭先验分布（共轭先验分布等分布函数内容将会在另外的博客讲解），即Dirichlet分布 $D i r (\vec{p} | \vec{α})$ 。Dirichlet先验+多项式分布的数据 $\to$ 后验分布为Dirichlet分布，所以参数 $\vec{p}$ 的后验分布为 $D i r (\vec{p} | \vec{n} + \vec{α})$ 。进一步，我们可以计算出语料的产生概率为：

\begin{array}{rcl} p (W | \vec{α}) & = & \int p (W | \vec{p}) p (\vec{p} | \vec{α}) d \vec{p} \\ = & \int \prod_{v = 1}^{V} p_{v}^{n_{v}} D i r (\vec{p} | \vec{α}) d \vec{p} \\ = & \int \prod_{v = 1}^{V} p_{v}^{n_{v}} \frac{1}{Δ (\vec{α})} \prod_{v = 1}^{V} p_{v}^{α_{v} - 1} d \vec{p} \\ = & \frac{1}{Δ (\vec{α})} \int \prod_{v = 1}^{V} p_{v}^{α_{v} + n_{v} - 1} d \vec{p} \\ = & \frac{Δ (\vec{n} + \vec{α})}{Δ (\vec{α})} \end{array}

贝叶斯学派下，对应的概率图模型如下：

此处N表示语料库中总共包含N个词。

2、PLSA

Unigram Model将一篇文档的生成过程简单地看作是从词袋中不断取词的过程显然于人类在写文章时遣词造句的过程存在较大差距。通常，我们在写文章时，首先会确定文章所包含的主题，然后根据主题选择相应的单词。
基于以上直观想法，Hofmann在1999年提出了PLSA（Probabilistic Latent Semantic Analysis）模型。Hofmann认为一篇文档由多个主题混合而成，每个主题都是词汇上的概率分布，文档中每个单词都是先确定一个主题后，然后在该主题下生成。此时文本生成过程如下：

上帝有两类骰子，一类是doc-topic骰子，每个doc-topic骰子有K个面，每一面是一个topic；一类是topic-word骰子，每个topic-word骰子有V面，每个面对应一个单词；
上帝一共有K个topic-word骰子，每个骰子有一个编号，从1到K；
生成每篇文档之前，上帝先为这篇文章制造一个特定的doc-topic骰子，然后重复如下过程生成文档中的词
1. 投掷这个doc-topic骰子，得到一个编号为k的topic；
2. 选择K个topic-word骰子中编号为k的那个，骰子这个骰子，得到一个词。

对应的概率图模型如下：

d和w是可观测到的变量。
在以上游戏规则下，文档之间是独立可交换的，同一个文档中的单词也是可交换的，所以还是一个词袋模型。第m篇文档 $d_{m}$ 中词 $w_{j}$ 的生成概率为

p (w_{j} | d_{m}) = \sum_{k = 1}^{K} p (w_{j} | z_{k}) p (z_{k} | d_{m}) p (w_{j}, d_{m}) = p (d_{m}) \sum_{k = 1}^{K} p (w_{j} | z_{k}) p (z_{k} | d_{m})

其中 $\vec{z} = (z_{1}, z_{2}, \dots, z_{k})$ 表示生成这篇文章所采用的doc-topic骰子中每个topic的概率。第m篇文档 $d_{m}$ 的生成概率为

p (\vec{w} | d_{m}) = \prod_{i = 1}^{n} p (w_{i}, d_{m}) = \prod_{v = 1}^{V} p (w_{v}, d_{m})^{n (w_{v}, d_{m})}

注意 $w_{i}$ 与 $w_{v}$ 的区别， $w_{i}$ 表示一篇包含n个单词的文档中第i个位置是单词 $w_{i}$ ， $w_{v}$ 表示词汇集合中的词 $w_{v}$ 。整个语料的生成概率为

p (W | D) = \prod_{m = 1}^{M} \prod_{v = 1}^{V} p (w_{v}, d_{m})^{n (w_{v}, d_{m})}

其中， $n (w_{v}, d_{m})$ 表示在文档 $d_{m}$ 中单词 $w_{v}$ 的词频。同样采用最大似然估计，整个语料库的似然函数如下

\begin{array}{rcl} \log p (W | D) & = & \sum_{m = 1}^{M} \sum_{v = 1}^{V} n (w_{v}, d_{m}) \log p (w_{v}, d_{m}) \\ = & \sum_{m = 1}^{M} \sum_{v = 1}^{V} n (w_{v}, d_{m}) \log p (d_{m}) \sum_{k = 1}^{K} p (w_{v} | z_{k}) p (z_{k} | d_{m}) \\ = & \sum_{m = 1}^{M} \sum_{v = 1}^{V} n (w_{v}, d_{m}) (\log p (d_{m}) + \log \sum_{k = 1}^{K} p (w_{v} | z_{k}) p (z_{k} | d_{m})) \end{array}

现在，通过最大化这个对数似然函数就能求解参数 $p (w_{v} | z_{k})$ 和 $p (z_{k} | d_{m})$ ，对于这种含有隐变量的参数估计，可以采用EM算法（EM算法等参数估计方法将在另外博客讲解）。

3、LDA

PLSA中认为每一篇文档中每个词的主题仅由唯一一个doc-topic分布生成，语料中每个topic对应的topic-word分布也是唯一固定的。这显然不符合贝叶斯学派的观点，因此LDA（Latent Dirichlet Allocation）在PLSA的基础上加入了贝叶斯框架，将其改造成贝叶斯版本。此时LDA生成文档的过程如下：

上帝有两个坛子，一个坛子装的是doc-topic骰子，一个坛子装的是topic-word骰子；
上帝随机从topic-word坛子中独立取出K个topic-word骰子，编号为1到K；
每次生成一篇新文档前，上帝先从第一个坛子中随机抽取一个doc-topic骰子，然后重复如下过程生成文档中的词
1. 投掷这个doc-topic骰子，得到一个编号为k的topic；
2. 选择K个topic-word骰子中编号为k的那个，投掷这枚骰子，生成一个词。

对应的概率图模型如下：

图中红色的框表示语料级，黄色的框表示文档级，绿色的框表示单词级，灰色的w表示可观测变量， $θ$ 表示一篇文档的主题分布， $φ$ 表示词分布（topic-word分布）， $α$ 是主题分布的先验分布（即Dirichlet分布）的参数， $β$ 是词分布的先验分布（即Dirichlet分布）的参数，K是主题数目，N是一篇文档中单词数目，M是文档数目。
在上面的分析中，我们都是一篇文档一篇文档的处理，其中有一些步骤是可以交换的，我们可以先生成语料中每个单词的主题，然后根据每个单词的主题，生成最终单词，此时过程如下：

上帝有两个坛子，一个坛子装的是doc-topic骰子，一个坛子装的是topic-word骰子；
上帝随机从第二个坛子中独立的取出K个topic-word骰子，编号1到K；
每次生成一篇新文档前，上帝先从第一个坛子中随机取出一个doc-topic骰子，然后重复投掷这枚骰子N次，为每个单词生成一个topic编号z，重复如上过程处理每篇文档，生成语料中每个词的topic；
从头到尾，对语料中每个词，选择K个topic-word骰子中编号为z的那个，投掷这枚骰子，生成对应的单词；

因为M篇文档的生成过程相互独立，所以M篇文档会对应M个独立的Dirichlet-Multinomial结构，下图 $\vec{α} \to \vec{θ_{m}} \to \vec{z_{m}}$ 表示生成第m篇文档中所以词的topic，显然 $\vec{α} \to \vec{θ_{m}}$ 对应于Dirichlet分布， $\vec{θ_{m}} \to \vec{z_{m}}$ 对应于Multinomial分布，因此参数 $\vec{θ_{m}}$ 的后验分布仍然是Dirichlet分布。

$\vec{z_{m}}$ 表示第m篇文档对应的主题向量，有 $\vec{z_{m}} = (n_{1, m}, n_{2, m}, \dots, n_{K, m})$ ， $z_{k, m}$ 表示第m篇文档中主题k的数量。第m篇文档在主题分布 $\vec{θ_{m}}$ 给定的情况下，主题向量 $\vec{z_{m}}$ 的概率为

p (\vec{z_{m}} | \vec{θ_{m}}) = \prod_{k = 1}^{K} θ_{k, m}^{n_{k, m}}

故第m篇文档的主题向量 $\vec{z_{m}}$ 的生成概率为所有可能的主题分布下 $\vec{z_{m}}$ 的概率的累积

\begin{array}{rcl} p (\vec{z_{m}} | \vec{α}) & = & \int p (\vec{z_{m}} | \vec{θ_{m}}) p (\vec{θ_{m}} | \vec{α}) d \vec{θ_{m}} \\ = & \int p (\vec{z_{m}} | \vec{θ_{m}}) D i r (\vec{θ_{m}} | \vec{α}) d \vec{θ_{m}} \\ = & \int \prod_{k = 1}^{K} θ_{k, m}^{n_{k, m}} \frac{1}{Δ (\vec{α})} \prod_{k = 1}^{K} θ_{k, m}^{α_{k, m} - 1} d \vec{θ_{m}} \\ = & \frac{1}{Δ (\vec{α})} \int \prod_{k = 1}^{K} θ_{k, m}^{n_{k, m} + α_{k} - 1} d \vec{θ_{m}} \\ = & \frac{Δ (\vec{n_{m}} + \vec{α})}{Δ (\vec{α})} \end{array}

其中， $\vec{n_{m}} = (n_{1, m}, n_{2, m}, \dots, n_{K, m})$ ， $n_{k, m}$ 表示第m篇文档产生的第k个topic的数量。由于语料库中M篇文档的生成过程相互独立，所以有M个相互独立的Dirichlet-Multinomial共轭分布，从而整个语料库的topic生成概率为

p (\vec{z} | \vec{α}) = \prod_{m = 1}^{M} p (\vec{z_{m}} | \vec{α}) = \prod_{m = 1}^{M} \frac{Δ (\vec{n_{m}} + \vec{α})}{Δ (\vec{α})}

类似的，在确定单词主题后，K个主题也会对应K个独立的Dirichlet-Multinomial共轭分布，下图 $\vec{β} \to \vec{φ_{k}} \to \vec{w_{k}}$ 表示在第K个主题下生成按照topic-word分布生成单词的过程，显然 $\vec{β} \to \vec{φ_{k}}$ 对应于Dirichlet分布， $\vec{φ_{k}} \to \vec{w_{k}}$ 对应于Multinomial分布，因此参数 $\vec{φ_{k}}$ 的后验分布仍然是Dirichlet分布。

$\vec{w_{k}}$ 表示在主题k下生成的单词的词向量，有 $\vec{w_{k}} = (w_{1, k}, w_{2, k}, \dots, w_{V, k})$ ， $w_{v, k}$ 表示主题k下生成单词 $w_{v}$ 的个数。在主题k的topic-word分布 $\vec{φ_{k}}$ 给定的情况下，词向量 $\vec{w_{k}}$ 生成概率为

p (\vec{w_{k}} | \vec{φ_{k}}) = \prod_{v = 1}^{V} φ_{v, k}^{n_{v, k}}

故词向量 $\vec{w_{k}}$ 的生成概率为在给定主题k下所有可能的topic-word分布 $\vec{φ_{k}}$ 下 $\vec{w_{k}}$ 生成概率的累积

\begin{array}{rcl} p (\vec{w_{k}} | z_{k}, \vec{β}) & = & \int p (\vec{w_{k}} | \vec{φ_{k}}) p (\vec{φ_{k}} | \vec{β}) d \vec{φ_{k}} \\ = & \int p (\vec{w_{k}} | \vec{φ_{k}}) D i r (\vec{φ_{k}} | z_{k}, \vec{β}) d \vec{φ_{k}} \\ = & \int \prod_{v = 1}^{V} φ_{v, k}^{n_{v, k}} \frac{1}{Δ (\vec{β})} \prod_{v = 1}^{V} φ_{v, k}^{n_{v, k}} d \vec{φ_{k}} \\ = & \frac{1}{Δ (\vec{β})} \int \prod_{v = 1}^{V} φ_{v, k}^{n_{v, k} + β_{v} - 1} d \vec{φ_{k}} \\ = & \frac{Δ (\vec{n_{k}} + \vec{β})}{Δ (\vec{β})} \end{array}

其中， $\vec{n_{k}} = (n_{1, k}, n_{2, k}, \dots, n_{V, k})$ ， $n_{v, k}$ 表示主题k下生成单词 $w_{v}$ 的个数。因为语料中K个topic生成单词的过程相互独立，有K个独立的Dirichlet-Multinomial共轭分布，所以整个语料中单词生成概率为

p (\vec{w} | \vec{z}, \vec{β}) = \prod_{k = 1}^{K} p (\vec{w_{k}} | z_{k}, \vec{β}) = \prod_{k = 1}^{K} \frac{Δ (\vec{n_{k}} + \vec{β})}{Δ (\vec{β})}

所以

\begin{array}{rcl} p (\vec{w}, \vec{z} | \vec{α}, \vec{β}) & = & p (\vec{w} | \vec{z}, \vec{β}) p (\vec{z} | \vec{α}) \\ = & \prod_{k = 1}^{K} \frac{Δ (\vec{n_{k}} + \vec{β})}{Δ (\vec{β})} \prod_{m = 1}^{M} \frac{Δ (\vec{n_{m}} + \vec{α})}{Δ (\vec{α})} \end{array}

有了联合分布 $p (\vec{w}, \vec{z} | \vec{α}, \vec{β})$ ，我们可以利用Gibbs Sampling采样（Gibbs Sampling采样相关的内容将在另外博客中讲解）方法对参数进行计算。
至此，我们完成了LDA模型的推导，也明白了LDA模型的由来，最重要的是理解LDA模型是PLSA模型的贝叶斯改进版，参数不仅未知而且取值不固定。

参考文献

July博客——通俗理解LDA文本模型
 LDA数学八卦