Hulu机器学习问题与解答系列 | 二十八:概率图模型

Hulu机器学习问题与解答系列 | 二十八:概率图模型

好久不见,先来一个干货的抱抱~

今天的内容是

【概率图模型】

场景描述

概率图模型(Probabilistic Graphical Model)主要分为两种(如图1所示),即贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network);其中贝叶斯概率图模型可以用一个有向图结构表示,马尔可夫概率图模型可以表示成一个无向图的网络结构。概率图模型适用于对实体间的依赖关系进行建模,有向边用来建模单向的依赖,无向边用来建模双方的相互依赖关系。概率图模型包括朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,在诸多机器学习场景中有着广泛的应用。

Hulu机器学习问题与解答系列 | 二十八:概率图模型

图1

问题描述

  1. 能否写出图1中贝叶斯网络的联合概率分布?

  2. 写出图1所示的马尔可夫网络的联合概率分布。

  3. 解释朴素贝叶斯模型的原理,并给出概率图模型表示。

  4. 解释最大熵模型的原理,并给出概率图模型表示。

知识点:概率图、贝叶斯网络、马尔可夫网络

解答与分析

1. 能否写出图1中贝叶斯网络的联合概率分布?

如图所示的贝叶斯网络中,在给定A的条件下B和C是条件独立的,因此:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

在给定B和C的条件下A和D是条件独立的,因此:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

于是有:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

2. 写出图1所示的马尔可夫网络的联合概率分布。

在马尔可夫网络中,联合概率分布的定义为:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

Hulu机器学习问题与解答系列 | 二十八:概率图模型

Hulu机器学习问题与解答系列 | 二十八:概率图模型

对于图中所有节点x={x1, x2, …, xn}所构成的一个子集,如果在这个子集中,任意两点之间都存在边相联,则这个子集中的所有节点构成了一个团。如果在这个子集中加入任意其他节点,都不能构成一个团,则称这样的子集构成了一个最大团。

在图1所示的网络结构中,我们可以看到(A,B),(A,C),(B,D),(C,D)构成团,同时也是最大团。因此联合概率分布可以表示如下:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

如果采用如上定义的指数函数作为势函数,则有:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

3. 解释朴素贝叶斯模型的原理,并给出概率图模型表示。

朴素贝叶斯模型通过预测指定样本属于特定类别的概率P(yi|x)来预测该样本的所属类别。

Hulu机器学习问题与解答系列 | 二十八:概率图模型

P(yi|x)可以写成如下的形式:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

其中x=(x1, x2, …, xn)为样本对应的特征向量,P(x)为样本的先验概率。对于特定的样本x和任意类别yiP(x)的取值均相同,并不会影响P(yi|x)取值的相对大小,因此在计算中可以被忽略。并且假设特征x1, x2, …, xn相互独立,可以得到:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

其中P(x1|yi), P(x2|yi), …, P(xn|yi),以及P(yi)可以通过训练样本统计得到。可以看到后验概率P(xj|yi)的取值决定了分类的结果,并且任意特征xj都由yi的取值所影响。因此概率图模型可以用下图表示:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

注:上图的表示为盘式记法。盘式记法是一种简洁的概率图模型表示方法,如果变量y同时对x1, x2, …, xN这N个变量产生影响,则可以简记成如图的形式。

4. 解释最大熵模型的原理,并给出概率图模型表示。

信息是指人们对事物理解的不确定性的降低或消除,而熵就是这种不确定性的度量,熵越大,不确定性也就越大。最大熵原理是概率模型学习的一个准则,指导思想是在满足约束条件的模型集合中选取熵最大的模型,即不确定性最大的模型。在平时生活中,我们也会有意无意地使用最大熵的准则,例如人们常说的鸡蛋不能放在一个篮子里,就是指在事情具有不确定性的时候,我们倾向于尝试它的多种可能性,从而降低结果的风险。同时,在我们摸清了事情背后的某种规律之后,我们可以加入一个约束,将不符合规律约束的情况排除,在剩下的可能性中去寻找使得熵最大的决策。

假设离散随机变量X的分布是P(X),则关于分布P的熵定义为:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

可以看出当X服从均匀分布时对应的熵最大,也就是不确定性最高。

给定离散随机变量X和Y上的条件概率分布P(Y|X),定义在条件概率分布上的条件熵为:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

其中Hulu机器学习问题与解答系列 | 二十八:概率图模型为样本在训练数据集上的经验分布,即X的各个取值在样本中出现的频率统计。

最大熵模型就是要学习到合适的分布P(Y|X),使得条件熵H(P)的取值最大。在我们对训练数据集一无所知的情况下,最大熵模型认为P(Y|X)是符合均匀分布的。那么当我们有了训练数据集之后呢?我们希望从中找到一些规律,从而消除一些不确定性,这时就需要用到特征函数f(x,y)。特征函数f描述了输入x和输出y之间的一个规律,例如当x=y时,f(x,y)等于一个比较大的正数。为了使学习到的模型P(Y|X)能够正确捕捉训练数据集中的这一规律(特征),我们加入一个约束,使得特征函数f(x,y)关于经验分布Hulu机器学习问题与解答系列 | 二十八:概率图模型的期望值与关于模型P(Y|X)和经验分布Hulu机器学习问题与解答系列 | 二十八:概率图模型的期望值相等,即

Hulu机器学习问题与解答系列 | 二十八:概率图模型

Hulu机器学习问题与解答系列 | 二十八:概率图模型

求解之后可以得到最大熵模型的表达形式:

Hulu机器学习问题与解答系列 | 二十八:概率图模型

最终,最大熵模型归结为学习最佳的参数w,使得Pw(y|x)最大化。从概率图模型的角度理解,我们可以看到Pw(y|x)的表达形式非常类似于势函数为指数函数的马尔可夫网络,其中变量X和Y构成了一个最大团,如下图所示:

Hulu机器学习问题与解答系列 | 二十八:概率图模型


下一题预告

【WGANs:抓住低维的幽灵】

场景描述

看过《三体3》的朋友,一定听说过“降维打击”这个概念,像拍苍蝇一样把敌人拍扁。其实,低维不见得一点好处都没有。想象猫和老鼠这部动画的一个镜头,老鼠Jerry被它的劲敌Tom猫一路追赶,突然Jerry发现墙上挂了很多照片,其中一张的背景是海边浴场,沙滩上有密密麻麻的很多人,Jerry一下子跳了进去,混在人群中消失了,Tom怎么也找不到Jerry。三维的Jerry变成了一个二维的Jerry,躲过了Tom。一个新的问题是:Jerry对于原三维世界来说是否还存在?极限情况下,如果这张照片足够薄,没有厚度,那么它就在一个二维平面里,不占任何体积,体积为零的东西不就等于没有吗!拓展到高维空间中,这个体积叫测度,无论N维空间的N有多大,在N+1维空间中测度就是零,就像二维平面在三维空间中一样。因此,一个低维空间的物体,在高维空间中忽略不计。对生活在高维世界的人来说,低维空间是那么无足轻重,像一层纱,如一个幽灵,似有似无,是一个隐去的世界。

2017年,一个训练生成对抗网络的新方法——WGAN被提出。在此之前,GANs已提出三年,吸引了很多研究者来使用它。原理上,大家都觉得GANs的思路实在太巧妙,理解起来一点都不复杂,很符合人们的直觉,万物不都是在相互制约和对抗中逐渐演化升级吗。理论上,Goodfellow在2014年提出GANs时,已经给出GANs的最优性证明,证明GANs本质上是在最小化生成分布与真实数据分布的Jensen-Shannon Divergence,当算法收敛时生成器刻画的分布就是真实数据的分布。但是,实际使用中发现很多解释不清的问题,生成器的训练会很不稳定。生成器这只Tom猫,很难抓住真实数据分布这只老鼠Jerry。

问题描述

请思考:原GANs中存在哪些问题,会成为制约模型训练效果的瓶颈;WGAN针对这些问题做了哪些改进;WGAN算法的具体步骤;写出WGAN的伪代码。


欢迎留言提问或探讨

关注“Hulu”微信公众号

点击菜单栏“机器学习”获得更多系列文章

Hulu机器学习问题与解答系列 | 二十八:概率图模型