主题模型（1）

1.数学知识背景：
（1） $\Gamma$ 函数：
$\Gamma$ 函数是阶乘在实数集上的推广
$\Gamma(x)=\int_{0}^{+\infty} t^{x-1} e^{-t} d t=(x-1) !$ $\Gamma(x)=(x-1) \cdot \Gamma(x-1) \Rightarrow \frac{\Gamma(x)}{\Gamma(x-1)}=x-1$
主题模型（1）
（2）Beta分布：
Beta分布概率密度函数：
$f(x)=\left\{\begin{array}{ll} \frac{1}{B(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1}, & x \in[0,1] \\ 0, & 其他 \end{array}\right.$
其中系数B为：
$B(\alpha, \beta)=\int_{0}^{1} x^{\alpha-1}(1-x)^{\beta-1} d x=\frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)}$
Beta分布的期望：
$\begin{array}{l} E(X)=\int_{0}^{1} x \cdot \frac{1}{B(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} d x \\ =\frac{1}{B(\alpha, \beta)} \int_{0}^{1} x^{(\alpha+1)-1}(1-x)^{\beta-1} d x \\ =\frac{B(\alpha+1, \beta)}{B(\alpha, \beta)}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} / \frac{\Gamma(\alpha+\beta+1)}{\Gamma(\alpha+1) \Gamma(\beta)} \\ =\frac{\alpha}{\alpha+\beta} \end{array}$
Beta分布图像：
主题模型（1）
（3）共轭先验分布
由于x为给定样本， $\mathrm{P}(\mathrm{x})$ 有时被称为证据，紧紧是归一化因子，如果不关心 $P(\theta | x)$ 的具体值，只考察 $\theta$ 取何值时后验概率 $\mathrm{P}(\theta | \mathrm{x})$ ,则可以将分母去掉。
$P(\theta | x)=\frac{P(x | \theta) P(\theta)}{P(x)} \propto P(x | \theta) P(\theta)$
在贝叶斯概率理论中，如果后验概率 $\mathrm{P}(\theta | \mathrm{x})$ 和先验概率 $\mathrm{p}(\theta)$ 满足同样的分布律，则先验分布和后验分布叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。
（4）共轭先验分布举例
（i）两点分布/二项分布的共轭先验分布是Beta分布
根据似然和先验：
$\begin{array}{c} P(x | \theta)=C_{n}^{k} \cdot \theta^{k} \cdot(1-\theta)^{n-k} \\ P(\theta | \alpha, \beta)=\frac{1}{B(\alpha, \beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1} \end{array}$
计算后验概率：
$\begin{array}{l} P(\theta | x)=\frac{P(x | \theta) \cdot P(\theta)}{P(x)} \propto P(x | \theta) \cdot P(\theta) \\ =\left(C_{n}^{k} \theta^{k}(1-\theta)^{n-k}\right) \cdot\left(\frac{1}{B(\alpha, \beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1}\right) \\ =\frac{C_{n}^{k}}{B(\alpha, \beta)} \theta^{(k+\alpha)-1}(1-\theta)^{(n-k+\beta)-1} \\ \propto\frac{1}{B(k+\alpha, n-k+\beta)} \theta^{(k+\alpha)-1}(1-\theta)^{(n-k+\beta)-1} \end{array}$
后验概率是参数为 $(\mathrm{k}+\alpha, \mathrm{n}-\mathrm{k}+\beta)$ 的Beta分布，即:伯努利分布/二项分布的共轭先验是Beta分布。参数 $\alpha, \beta$ 是决定参数 $\theta$ 的参数，即超参数，在后验概率的最终表达式中，参数 $\alpha, \beta$ 和k以及n-k一起作为参数 $\theta$ 的指数–后验概率的参数为 $(\mathrm{k}+\alpha, \mathrm{n}-\mathrm{k}+\beta)$ 。
（ii）多项分布的共轭先验分布是Dirichlet分布
多项分布，是二项分布扩展到多维的情况. 多项分布是指单次试验中的随机变量的取值不再是0-1的，而是有多种离散值可能（1,2,3…,k）.概率密度函数为：
$P\left(x_{1}, x_{2}, \ldots, x_{k} ; n, p_{1}, p_{2}, \ldots, p_{k}\right)=\frac{n !}{x_{1} ! \ldots x_{k} !} p_{1}^{x_{1}} \ldots p_{k}^{x_{k}}$
Dirichlet分布如下：
$f(\vec{p} | \vec{\alpha})=\left\{\begin{array}{l} \frac{1}{\Delta(\vec{\alpha})} \prod_{k=1}^{K} p_{k}^{\alpha_{k}-1}, \quad p_{k} \in[0,1] \\ 0, \quad 其他 \end{array}\right.$
其中， $\Delta(\vec{\alpha})=\frac{\prod_{k=1}^{K} \Gamma\left(\alpha_{k}\right)}{\Gamma\left(\sum_{k=1}^{K} \alpha_{k}\right)}$
Dirichlet分布期望：
$f(\vec{p} | \vec{\alpha})=\frac{1}{\Delta(\vec{\alpha})} \prod_{k=1}^{K} p_{k}^{\alpha_{k}-1}, p \in[0,1] \Rightarrow E\left(p_{i}\right)=\frac{\alpha_{i}}{\sum_{k=1}^{K} \alpha_{k}}$
对称Dirichlet分布：
$\operatorname{Dir}(\vec{p} | \alpha, K)=\frac{1}{\Delta_{K}(\alpha)} \prod_{k=1}^{K} p_{k}^{\alpha-1}$
其中，
$\Delta_{K}(\vec{\alpha})=\frac{\Gamma^{K}\left(\alpha_{k}\right)}{\Gamma(K \cdot \alpha)}$
对称Dirichlet分布参数分析：
$\alpha=1$ 退化为均匀分布， $\alpha>1$ 时， $\mathrm{p}_{1}=\mathrm{p}_{2}=\ldots=\mathrm{p}_{\mathrm{k}}$ 的概率增大，
$\alpha<1$ 时， $\mathrm{p}_{\mathrm{i}}=1, \quad \mathrm{p}_{非{i}}=0$ 的概率增大。
主题模型（1）
2.LDA介绍
（1）LDA应用方向：
朴素贝叶斯可以胜任许多文本分类的问题，但是无法解决语料中一词多义和多次一意的问题，是一种词法分析，并非语义分析。如果使用词向量作为文档的特征，一词多义和多
信息提取和搜索：语义分析
文档分类/聚类，文章摘要，社区挖掘
（2）LDA的解释：
共有m篇文章，一共涉及了K个主题；
每篇文章（长度为Nm）都有各自的主题分布，主题分布式多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为 $\alpha$ ；
每个主题都有各自的词分布，此分布为多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为 $\beta$ ;
对于某篇文章中的第n个词，首先从该文章中的主题分布中采样一个主题，然后在个主题对应的词分布中采样一个词，不断重复整个随机生成过程，直到m篇文章全部完成上述过程。
主题模型（1）

字典*有V个term（不可重复的），这些term出现在具体的文章中，就是word，在具体文章中的word当然是有可能重复的;
语料库*有m篇文档 $\mathrm{d}_{1}, \mathrm{d}_{2} \ldots \mathrm{d}_{\mathrm{m}}$ ;
对于文档 $\mathrm{d}_{i}$ ,由 $N_{i}$ 个word组成，可重复；
语料库*有K个主题 $\mathrm{T}_{1}, \mathrm{T}_{2} \dots \mathrm{T}_{\mathrm{k}}$ ；
$\alpha 和 \beta$ 为先验分布的参数，一般事先给定：如取0.1的对称Dirichlet分布，表示在参数学习结束后，期望每个文档的主题不会十分集中。
$\theta$ 是每篇文档的主题分布，对于第i篇文档 $d_i$ 的主题分布是 $\theta_{1}=\left(\theta_{11}, \theta_{12} \cdots, \theta_{i K}\right)$ ，是长度为K的向量；
对于第i篇文章 $d_i$ ,在主题分布 $\theta_i$ 下，可以确定一个具体的主题 $Z_{1 j}=K$ , $\mathrm{k} \in[1, \mathrm{K}]$ ；
$\varphi_{k}$ 表示第k个主题分布的词分布， $\mathrm{k} \in[1, \mathrm{K}]$ ，对于第K个主题 $T_{\mathrm{k}}$ 的词分布 $\varphi_{\mathrm{k}}=\left(\varphi_{\mathrm{k} 1}, \varphi_{\mathrm{k} 2} \ldots \varphi_{\mathrm{kv}}\right)$ ，是长度为v的向量；
由 $Z_{i j}$ 选择 $\varphi_{z i j}$ ，
（3）LDA推导：
（i）参数的学习
给定一个文档的集合， $\mathrm{W}_{\mathrm{mn}}$ 是可以观测到的已知变量， $\alpha$ 和 $\beta$ 都是根据经验给定的先验参数，其他的变量
$\mathrm{Z}_{\mathrm{mn}} \cdot \theta, \quad \varphi$ 都是未知的隐含变量，需要根据观测到的变量来学习估计的，根据LDA的图模型，可以写出所有变量的联合分布：
$p\left(\vec{w}_{m}, \vec{z}_{m}, \vec{\vartheta}_{m}, \underline{\Phi} | \vec{\alpha}, \vec{\beta}\right)=\prod_{n=1}^{N_{m}} p\left(w_{m, n} | \vec{\varphi}_{z_{m n}}\right) p\left(z_{m, n} | \vec{\vartheta}_{m}\right) \cdot p\left(\vec{\vartheta}_{m} | \vec{\alpha}\right) \cdot p(\underline{\Phi} | \vec{\beta})$
（ii）似然概率
一个词 $\mathrm{W}_{\mathrm{mn}}$ 初始化为一个词t的概率是
$p\left(w_{m, n}=t | \vec{\vartheta}_{m}, \underline{\Phi}\right)=\sum_{k=1}^{K} p\left(w_{m, n}=t | \vec{\varphi}_{k}\right) p\left(z_{m, n}=k | \vec{\vartheta}_{m}\right)$
每个文档中出现主题k的概率乘以主题k下出现词t的概率，然后枚举所有主题求和得到整个文档集合的似然函数为：
$p(\mathcal{W} | \underline{\Theta}, \underline{\Phi})=\prod_{m=1}^{M} p\left(\vec{w}_{m} | \vec{\vartheta}_{m}, \underline{\Phi}\right)=\prod_{m=1}^{M} \prod_{n=1}^{N_{m}} p\left(w_{m, n} | \vec{\vartheta}_{m}, \underline{\Phi}\right)$

相关推荐