EM推导PLSA模型

回归EM算法

EM推导PLSA模型

以上是EM算法的框架，基本思想是：

E步骤：求当隐变量给定后当前估计的参数条件下的后验概率
M步骤：最大化complete data对数似然函数的期望，把E步当做是已知值，得到新的参数值
不断迭代以上步骤直到收敛。

plsa模型简介

PLSA应用于信息检索、过滤、自然语言处理等领域，考虑到词分布和主题分布，可以看做概率化的矩阵分解，采用EM算法来学习参数。

模型示意图如下：
EM推导PLSA模型

其中包括的概率有：

以 $p (d_{i})$ 的概率选中文档 $d_{i}$
以 $p (z_{k} | d_{i})$ 的概率选中主题 $z_{k}$
以 $p (w_{j} | z_{k})$ 的概率产生一个词 $w_{j}$

在plsa中, $p (d_{i})$ 可以事先计算求出，而 $p (w_{j} | z_{k}), p (z_{k} | d_{i})$ 就是我们需要计算的参数。

根据EM算法：
E步：求隐变量的后验概率

$p (z_{k} | d_{i}, w_{j}) = \frac{p (w_{j} | z_{k}) p (z_{k} | d_{i})}{\sum_{l = 1}^{K} p (w_{j} | z_{l}) p (z_{k} | d_{i})}$

M步完整数据的似然函数的期望

$l = \sum_{i} \sum_{j} n (d_{i}, w_{j}) l o g p (d_{i}, w_{j})$
$= \sum_{i} \sum_{j} n (d_{i}, w_{j}) l o g p (w_{j} | d_{i}) p (d_{i})$
$= \sum_{i} \sum_{j} n (d_{i}, w_{j}) l o g p (w_{j} | d_{i}) + \sum_{i} \sum_{j} n (d_{i}, w_{j}) l o g p (d_{i})$
后项是一个常数，因此可得
$E (l) = \sum_{i} \sum_{j} n (d_{i}, w_{j}) \sum_{k} p (z_{k} | d_{i}, w_{j}) l o g (p (w_{j}, z_{k} | d_{i}))$

$= \sum_{i} \sum_{j} n (d_{i}, w_{j}) \sum_{k} p (z_{k} | d_{i}, w_{j}) l o g (p (z_{k} | d_{i}) p (w_{j} | z_{k}))$

其中 $n (d_{i}, w_{j})$ 表示 $w_{j}$ 在 $d_{i}$ 中出现的次数，同时因为概率隐藏着两个约束条件：
$\sum_{j = 1}^{M} p (w_{j} | z_{k}) = 1$
$\sum_{k = 1}^{K} p (z_{k} | d_{i}) = 1$

由此可以看出，这是一个带等式约束的问题，可以采用拉格朗日乘子法来解决。

$L a g = \sum_{i} \sum_{j} n (d_{i}, w_{j}) \sum_{k} p (z_{k} | d_{i}, w_{j}) l o g (p (z_{k} | d_{i}) p (w_{j} | z_{k})) + \sum_{k = 1}^{K} τ_{k} (1 - \sum_{j = 1}^{M} p (w_{j} | z_{k})) + \sum_{i = 1}^{N} ρ_{i} (1 - \sum_{k = 1}^{K} p (z_{k} | d_{i}))$

分别对带求解参数 $p (w_{j} | z_{k}), p (z_{k} | d_{i})$ 求偏导数可得
$\frac{\partial L a g}{\partial p (w_{j} | z_{k})} = \frac{\sum_{i} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j})}{p (w_{j} | z_{k})} - τ_{k} = 0$
$\sum_{i} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) = τ_{k} p (w_{j} | z_{k})$
$\sum_{m = 1}^{M} \sum_{i} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) = \sum_{m = 1}^{M} τ_{k} p (w_{j} | z_{k})$

$\sum_{m = 1}^{M} \sum_{i} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) = τ_{k} \sum_{m = 1}^{M} p (w_{j} | z_{k}) = τ_{k}$

将 $τ_{k}$ 代人可得

$\sum_{i} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) = \sum_{m = 1}^{M} \sum_{i} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) * p (w_{j} | z_{k})$

$p (w_{j} | z_{k}) = \frac{\sum_{i} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j})}{\sum_{m = 1}^{M} \sum_{i} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j})}$

同理可得
$\frac{\partial L a g}{\partial p (z_{k} | d_{i})} = \frac{\sum_{j} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j})}{p (z_{k} | d_{i})} - ρ_{i} = 0$

$\sum_{j} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) = ρ_{i} p (z_{k} | d_{i})$
$\sum_{k = 1}^{K} \sum_{j} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) = \sum_{k = 1}^{K} ρ_{i} p (z_{k} | d_{i})$
$\sum_{k = 1}^{K} \sum_{j} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) = ρ_{i} \sum_{k = 1}^{K} p (z_{k} | d_{i}) = ρ_{i}$

将 $ρ_{i}$ 代入
$\sum_{j} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) = \sum_{k = 1}^{K} \sum_{j} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j}) * p (z_{k} | d_{i})$

可得
$p (z_{k} | d_{i}) = \frac{\sum_{j} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j})}{\sum_{k = 1}^{K} \sum_{j} n (d_{i}, w_{j}) p (z_{k} | d_{i}, w_{j})}$

M步更新这两个参数

EM推导PLSA模型

EM推导PLSA模型

回归EM算法

plsa模型简介

相关推荐