Probabilistic Graphical Model


  概率图模型(probabilistic graphical model)是一类用图来表达变量相关关系的概率模型

  大致分为两类
  1)用有向无环图表示变量间的依赖关系,称为有向图模型或者Bayesian network
  2)用无向图表示变量之间的相关关系,成为无向图模型或者马尔可夫网(Markov network)

1 HMM

  HMM(Hidden Markov Model)是结构最简单的 dynamic Bayesian network,是一种著名的有向图模型。

  Markov chain:系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态,所谓“现在决定未来

   t 时刻的状态 yt 仅依赖于 t1 时刻的状态 yt ,与其余 n2 个状态无关,这就是 Markov chain.

Probabilistic Graphical Model

1.1 Notion

  1)观测变量{x1,x1,...,xn}xiX观测空间)表示第 i 时刻的观测值,其中 X 的取值范围为{o1,o2,...,oM}

  2)状态变量{y1,y1,...,yn},也称为隐变量(hidden variable), yiY状态空间)表示第 i 时刻系统的状态,其中 Y 的取值范围为 {s1,s1,...,sN}


  3)初始状态概率
  记为 π=(π1,π2,...,πN)

πi=P(y1=si),1iN

  表示模型的初始状态为 si 的概率。

  4)输出观测概率
  记为矩阵 B=[bij]N×M

bij=P(xt=ojyt=si),1iN,1jM

  表示在任意时刻 t ,若状态为 si, 则观测值 oj 被获取的概率。

  5)状态转移概率
  记为矩阵 A=[aij]N×M

aij=P(yt+1=sjyt=si),1i,jN

  表示在任意时刻t,若状态为 si, 则在下一时刻状态为 sj的概率。


1.2 产生观测序列

  指定状态空间Y、观测空间X 和 4)、5)、6)三组参数,就可以确定一个HMM。其参数用 λ=(A,B,π) 来表示。给定 λ, 它按照如下过程产生观测序列 {x1,x1,...,xn}

  1. 设置 t=1,由 π 选择初始状态 y1
  2. 根据 ytB 选测观测变量取值 xt
  3. 根据 ytA 转移模型状态,即确定 yt+1
  4. t<n, t=t+1,跳到步骤2,否则停止

2 MRF

2.1 什么是MRF

马尔可夫随机场(Markov Random Field)是典型的 Markov network,是一种著名的无向图模型。

马尔可夫随机场(Markov Random Field)包含两层意思。

1) 马尔可夫性质:它指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。拿天气来打个比方。如果我们假定天气是马尔可夫的,其意思就是我们假设今天的天气仅仅与昨天的天气存在概率上的关联,而与前天及前天以前的天气没有关系。其它如传染病和谣言的传播规律,就是马尔可夫的。

2) 随机场:当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。我们不妨拿种地来打个比方。其中有两个概念:位置(site),相空间(phase space)。“位置”好比是一亩亩农田;“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。

马尔可夫随机场:拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场

2.2 团(clique)

:图中任意两个结点间都有边缘连接,则称该结点子集为一个“团”。
极大团:maximal clique,若在一个团中加入另外任何一个结点都不再形成团,则称该团为“极大团”

Probabilistic Graphical Model

团:
{x1,x2},{x1,x3},{x2,x4},{x2,x5},{x2,x6},{x3,x5},{x5,x6},{x2,x5,x6}

极大团:
{x1,x2},{x1,x3},{x2,x4},{x3,x5},{x2,x5,x6}

2.3 联合概率

在马尔可夫随机场中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子仅与一个团相关。Specifically,对于n个变量 X={x1,x1,...,xn},所有团构成的集合为 C,与团 QC对应的变量集合记为 XQ ,则联合概率 P(X) 定义为

P(X)=1ZQCψQ(XQ)

其中 ψQ为与团 Q 对应的势函数(potential funcitons)也称为因子(factor), Z=XQCψQ(XQ) 为规范化因子,以确保 P(X) 是被正确定义的概率,实际中精确的计算出 Z 通常很困难,但许多任务中往往不需要精确的计算出 Z

若变量个数较多,则团的数目将会很多,则 P(X)=1ZQCψQ(XQ) 由于乘积项过多会带来计算负担

Note: 若团不是极大团,则它必被一个极大团 Q所包含,即 XQXQ

改进:假定所有极大团构成的集合为 C

P(X)=1ZQCψQ(XQ)

其中 Z=XQCψQ(XQ)


eg: 上图中极大团为{x1,x2},{x1,x3},{x2,x4},{x3,x5},{x2,x5,x6}

P(X)=1Zψ12(x1,x2)ψ13(x1,x3)ψ24(x2,x4)ψ35(x3,x5)ψ256(x2,x5,x6)

2.4 分离集(separating set)

在MRF中如何得到“条件独立性”呢?借助于“分离”的概念

Probabilistic Graphical Model

从结点集A中的结点到结点集B中的结点都必须经过结点集C中的结点,则称结点集A和B被结点集C分离,C称为 “分离集(separating set)”。

全局马尔可夫性(global Markov property):给定两个变量子集的分离集,则这两个变量子集条件独立

也即 XAXB 在给定 XC 条件下独立,记为XAXBXC

证明略

由 global Markov property 可以得到两个很有用的推论:

  • 局部马尔可夫性(local Markov property):给定某变量的邻接变量,则该变量条件独立于其它变量
  • 成对马尔可夫性(pairwise Markov property):给定所有其他变量,两个非邻接变量条件独立

参考
【1】《机器学习》周志华
【2】马尔科夫随机场和马尔科夫链
【3】条件随机场入门(一) 概率无向图模型