概率图模型相关知识

概率图模型知识记录

基本概念

  • 概率图模型:在概率模型的基础上,使用基于图的方法来表示概率分布,是一种通用化的不确定性知识表示和处理方法。节点表示随机变量,边表示依赖关系。

  • 概率图模型分类:
    有向图模型:一般是生成式模型
    无向图模型:一般是判别式模型
    生成模型与判别模型的本质区别:模型中观测序列x与状态序列y的决定关系。
    【见《统计自然语言处理方法》105页】

  • 图模型的三个基本问题:
    (1)表示问题:对于一个概率模型,如何通过图结构来描述变量之间的依赖关
    系.
    (2)学习问题:图模型的学习包括图结构的学习和参数的学习.
    (3) 推断问题:在已知部分变量时,计算其他变量的条件概率分布.
    概率图模型相关知识
    图来源:《神经网络与深度学习》

    用图模型只是换一种表示,真正重要的是其中的条件独立性假设,能够减少参数个数。

  • 自然语言处理中概率图模型的演变过程
    概率图模型相关知识
    朴素贝叶斯与逻辑回归解决一般的分类问题;
    HMM与线性的CRF解决“线式”序列问题,比如序列标注问题。
    生成式有向图模型、通用的CRF解决一般性的图问题。

有向图模型

有向图模型(Directed Graphical model),也称为贝叶斯网络(Bayesian
Network),或信念网络(Belief Network,BN),是一类用有向图来描述随机向
量概率分布的模型.

  • 条件独立:贝叶斯网络所依赖的一个核心概念,两节点没连接表示 两个随机变量在某些情况下条件独立,两个节点连接表示两个随机变量在任何情况下都不条件独立。

隐马尔可夫模型

  • 模型抽象表示:λ=(A,B,π)\lambda = (A,B,\pi )
    (1)HMM由初始状态概率向量π\pi、状态转移概率矩阵A和观测概率矩阵B决定。
    (2)π\pi和A确定了隐藏的马尔卡夫链,生成不可观测的状态序列。
    (3)B确定了如何从状态生成观测,与状态序列综合确定了如何产生观测序列。
  • 基本假设:
    (1)齐次马尔可夫性:任意时刻的状态只依赖上一时刻的状态。
    P(itit1,.......)=P(itit1)P(i_t|i_{t-1},.......) = P(i_t|i_{t-1})【转移概率】
    (2)观测独立性假设:任意时刻的观测只依赖当前时刻状态。
    P(otit.......)=P(otit)P(o_t|i_t.......) =P(o_t|i_t) 【发射概率】
  • 三个基本问题:
    (1)概率计算:P(Oλ)P(O|\lambda)
    (2)学习问题:估计参数,使得$max P(O|\lambda) $
    (3)推断问题:给定观测序列O,maxP(IO)max P(I|O)

概率计算:

分为前向算法与后向算法

学习问题

参数估计可以分为有监督、无监督。
有监督方法基于极大似然估计的思想,用频率估计概率。
{(O1,I1),(O2,I2)...........}\{(O_1,I_1),(O_2,I_2)...........\} ——>(π,A,B)(\pi,A,B)

无监督方法基于EM算法,这边还没理解:意思是给了一堆观测序列,就可以得到参数?
【留个坑】

推断问题【解码】

维特比算法:动态规划的思想求概率最大的路径,每个路径对应一个状态序列。
输入:模型和观测序列(一个句子)
输出:状态序列(每个词的标签)
维护两个变量。

  • 时刻t(第t个词)状态为iti_t时的最优路径。
    递推计算:上一时刻的所有状态对应的最优路径转移到状态iti_t,再由状态iti_t发射 到观测oto_t所有路径中概率最大的那个。
  • 时刻t状态iti_t所有单个路径中概率最大路径(上面计算得到的)的前一个节点(即第t-1个词)
    目的:方便求得最后一个节点的最优路径后,进行回溯。

简单来说:计算时是前向逐步计算,直到最后一个节点(词)。每个节点(词)都有对应所有状态的单个最优路径值。到最后一个节点(词)求得最优路径后,开始回溯,返回这条路径上每个节点对应的状态。