9 概率图模型(二):无向图-马尔可夫网络(马尔可夫随机场)

上一小节中,我们分析了有向图Bayesian Network,得到了因子分解法。虽然,有向图中可以方便直观的表达条件独立性,但是它也有它的局限性。也就是我们提到的对于Head to Head 的结构来说,当中间节点被观察到的时候,反而是两端的节点是相关的。这违反了条件独立性的特点,也就是当某些变量被观察到时,其他变量之间是独立的特点,这种情况有点反常,并不太好办。
但是,在无向图中就完全不会出现这样的情况,因为本来就没有方向,而且在无向图中也有类似的D-Separation 性质。

1 Markov网络中的条件独立

Markov 中的条件独立,大致可以被我们分成三种情况,Global Markov,Local Markov 和Pair Markov。

1.1 Global Markov

假设现在有三个集合XAXBXCX_{A} \perp X_{B} |X_{C},我们想得到aXA,bXBa \in X_{A},b \in X_{B} 之间相互独立,这个应该怎么办?我们给出,只有a 和b 的中间节点至少有一个位于c 中,那么我们就可以得到aca\in c
9 概率图模型(二):无向图-马尔可夫网络(马尔可夫随机场)

1.2 Local Markov

我们以下图的一个Markov Network 为例,
9 概率图模型(二):无向图-马尔可夫网络(马尔可夫随机场)
用文字的语言来描述就为x(XxNeighbour(x))Neighbour(x)x\perp (X-x-Neighbour(\mathcal{x}))|Neighbour(x)。那么在这个图中,我们就可以表示为a{e,f}{b,c,d}a \perp\{e, f\} |\{b, c, d\}

1.3 Pair Markov

成对马尔可夫性质可以被我们描述为:xixjxij(ij)x_{i} \perp x_{j} | x_{-i-j}(i \neq j)。其中,xijx_{-i-j} 为从全集中去掉xix_{i}xjx_{j} 而留下了的集合。
那么条件独立性就可以体现在,Global,Local 和Pair 中。其中Global<=>Local<=>Pair。也就是这三种条件独立的方法得到的结果是一样的。

2 因子分解法

我们想一想在一个无向图中,如何来体现我们想要的条件独立性。这里的引入和之前的不太一样,我们首先需要引入几个概念。团: 这是一个关于节点的集合,集合中的节点是相互连通的。而最大团,就很好理解了吧,也就是最大的连通子集。我们可以将无向图的分离定义到团上,我们假设c1,c2,ckc1,c2,\cdots c_k表示为团,共有K个团。那么,我们可以将联合概率定义为:p(x)=1Zi=1kϕ(xci)p(x)=\frac{1}{Z} \prod_{i=1}^{k} \phi\left(x_{c_{i}}\right)
其中,zz 是归一化因子,因为没有归一化因子的话,这不能被称为一个概率分布,因为概率分布首先就要保证和等于1。那么,zz 被定义为:
z=xi=1kϕ(xci)=xixNi=1kϕ(xci)z=\sum_{x} \prod_{i=1}^{k} \phi\left(x_{c_{i}}\right)=\sum_{x_{i}} \cdots \sum_{x_{N}} \prod_{i=1}^{k} \phi\left(x_{c_{i}}\right)
而这里的因子分解法必定和Global,Local 和Pair 都是等价的。

3 Gibbs Distribution 和Exponential Distribution

这个部分是上面部分的一个加深理解,首先我们需要总结一下。

  1. Global Markov: XAXCXBX_{A} \perp X_{C} | X_{B} 。如果 A,B,C,A, B, C, 满足 Sep(A,CB),\operatorname{Sep}(A, C | B), Sep 代表 D-Separation,那
    XAXCXBX_{A} \perp X_{C} | X_{B}
  2. Local Markov Network: xixinb(i)xnb(i),x_{i} \perp x_{-i-n b(i)} | x_{n b(i)}, 其实 nb(i)\mathrm{nb}(\mathrm{i}) : neighbor of node io\mathrm{i}_{\mathrm{o}}
  3. Pair Markov: xixjxijx_{i} \perp x_{j} | x_{-i-j}

1231 \Leftrightarrow 2 \Leftrightarrow 3 \Leftrightarrow因子分解(基于最大团)。这里面实际上是有个Hammesley-Clifford 定理的,这个定理的证明非常的困难,我们这里就不做过多的阐述。

因子分解:在我们之前的定义中,p(x)=1Zi=1kϕ(xci)p(x)=\frac{1}{Z} \prod_{i=1}^{k} \phi\left(x_{c_{i}}\right)
cic_{i}:最大团;xcix_{c_{i}}:最大团的随机变量集合;ϕ(xci)\phi (x_{c_{i}}):势函数,必须为正。这里的概念都是来自于统计物理学和热力学的过程。这里的势函数还有可以做文章的地方。
因为,势函数必定为正,我们可以将势函数表达为
ϕ(xci)=exp(E(xci)) \phi(x_{ci})=\exp(-E(x_{ci}))
其中,E(xci)E(x_{ci}) 称为Energy function。实际上用这种形式表达的p(x),为Gibbs Distribution,或者又被称之为Boltzman Distribution(玻尔兹曼分布)。有了ϕ(xci)\phi(x_{ci})的形式,我们可以进一步推导得:p(x)=1Zi=1Kϕ(xci)=1Zi=1Kexp{E(xci)}=1Zexp{i=1kE(xci)}p(x)=\frac{1}{Z} \prod_{i=1}^{K} \phi\left(x_{c_{i}}\right)=\frac{1}{Z} \prod_{i=1}^{K} \exp \left\{-E\left(x_{c_{i}}\right)\right\}=\frac{1}{Z} \exp \left\{-\sum_{i=1}^{k} E\left(x_{c_{i}}\right)\right\}
我们再来回顾一下指数族分布,指数族分布的通用表达形式为:p(x)=h(x)exp{ηTϕ(x)A(η)}=h(x)1Z(η)exp{ηTϕ(x)}p(x)=h(x) \exp \left\{\eta^{T} \phi(x)-A(\eta)\right\}=h(x) \frac{1}{Z(\eta)} \exp \left\{\eta^{T} \phi(x)\right\}

在这里我们把expA(η)exp{-A(\eta)},直接记为Z(η)Z(\eta)。大家观察就会发现势函数也就是Gibbs Distribution 就是一个指数族分布。Gibbs 是来自统计物理学,形式上和指数族分布时一样的。而指数族分布实际上是由最大熵分布得到的,那么我们可以理解Gibbs 分布也是有最大熵原理得到的。而马尔可夫随机场(Markov Random Field) 实际上等价于Gibbs 分布。至于为什么?这实际上全部都在Hammesley-Clifford 定理中,有兴趣的同学,请自行查阅。