概率图模型知识记录

基本概念

概率图模型：在概率模型的基础上，使用基于图的方法来表示概率分布，是一种通用化的不确定性知识表示和处理方法。节点表示随机变量，边表示依赖关系。
概率图模型分类：
有向图模型：一般是生成式模型
无向图模型：一般是判别式模型
生成模型与判别模型的本质区别：模型中观测序列x与状态序列y的决定关系。
【见《统计自然语言处理方法》105页】
图模型的三个基本问题：
（1）表示问题：对于一个概率模型，如何通过图结构来描述变量之间的依赖关
系.
（2）学习问题：图模型的学习包括图结构的学习和参数的学习.
（3）推断问题：在已知部分变量时，计算其他变量的条件概率分布.

图来源：《神经网络与深度学习》

用图模型只是换一种表示，真正重要的是其中的条件独立性假设，能够减少参数个数。
自然语言处理中概率图模型的演变过程

朴素贝叶斯与逻辑回归解决一般的分类问题；
HMM与线性的CRF解决“线式”序列问题，比如序列标注问题。
生成式有向图模型、通用的CRF解决一般性的图问题。

有向图模型（Directed Graphical model），也称为贝叶斯网络（Bayesian
Network），或信念网络（Belief Network，BN），是一类用有向图来描述随机向
量概率分布的模型.

模型抽象表示： $\lambda = (A,B,\pi )$
（1）HMM由初始状态概率向量 $\pi$ 、状态转移概率矩阵A和观测概率矩阵B决定。
（2） $\pi$ 和A确定了隐藏的马尔卡夫链，生成不可观测的状态序列。
（3）B确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。
基本假设：
（1）齐次马尔可夫性：任意时刻的状态只依赖上一时刻的状态。
$P(i_t|i_{t-1},.......) = P(i_t|i_{t-1})$ 【转移概率】
（2）观测独立性假设：任意时刻的观测只依赖当前时刻状态。
$P(o_t|i_t.......) =P(o_t|i_t)$ 【发射概率】
三个基本问题：
（1）概率计算： $P(O|\lambda)$
（2）学习问题：估计参数，使得$max P(O|\lambda) $
（3）推断问题：给定观测序列O， $max P(I|O)$

分为前向算法与后向算法

参数估计可以分为有监督、无监督。
有监督方法基于极大似然估计的思想，用频率估计概率。
$\{(O_1,I_1),(O_2,I_2)...........\}$ ——> $(\pi,A,B)$

无监督方法基于EM算法，这边还没理解：意思是给了一堆观测序列,就可以得到参数？
【留个坑】

维特比算法：动态规划的思想求概率最大的路径，每个路径对应一个状态序列。
输入：模型和观测序列（一个句子）
输出：状态序列（每个词的标签）
维护两个变量。

时刻t（第t个词）状态为 $i_t$ 时的最优路径。
递推计算：上一时刻的所有状态对应的最优路径转移到状态 $i_t$ ，再由状态 $i_t$ 发射到观测 $o_t$ 所有路径中概率最大的那个。
时刻t状态 $i_t$ 所有单个路径中概率最大路径（上面计算得到的）的前一个节点（即第t-1个词）
目的：方便求得最后一个节点的最优路径后，进行回溯。

简单来说：计算时是前向逐步计算，直到最后一个节点（词）。每个节点（词）都有对应所有状态的单个最优路径值。到最后一个节点（词）求得最优路径后，开始回溯，返回这条路径上每个节点对应的状态。