[贝叶斯七]之正态分布贝叶斯决策

贝叶斯是非常传统,理论简单,但是非常有效的一种机器学习方法。经过大量实验表明,贝叶斯方法是极具鲁棒性的。至今为止仍然有很多人在研究贝叶斯的基础理论,而且发现许多算法都可以由贝叶斯推导而来,所以贝叶斯是具有极大的研究价值的理论。

这一章节我们就来扯一扯正态分布数据的贝叶斯决策理论,看看我们能搞点什么事情出来。自己多多推导,没准能发现新的大陆。许多优秀的算法,比如SVM等等往往就是这样诞生的。

这一节因为推导的东西比较多,可能很枯燥。所以先搞个大纲出来,看看我们接下来要搞点什么事情。

  • 正态分布
    • 单变量正态分布
    • 多变量正态分布
    • 正态分布的特点
  • 贝叶斯分类器设计
    • 理论推导
    • 简化case1:最小欧式距离
    • 简化case2:马氏距离
    • General

主要就是这样一个构架了,谈正态分布的贝叶斯决策,显然我们得谈谈正态分布,然后由此出发,我们从最简单的case(增加各种假设条件,得到一个最简单的模型),然后依次General。

闲话少说,开始我们的旅程吧。

一、正态分布

这里不是将概率论,详情请看我们写的数学系列教程。这里我们从需求出发,简单阐述单变量正态分布、多变量正态分布,最重要的是阐述一下正态分布的特点。

1.1 单变量正态分布

首先,搞个热身运动。下面是最简单的单变量正态分布。


[贝叶斯七]之正态分布贝叶斯决策


[贝叶斯七]之正态分布贝叶斯决策

其中:

  • Pdf(单变量概率密度函数)

p(x)=12πσe{12(xμσ)2}

  • Mean Vector (均值)

μ=E{x}=xp(x)dx

  • Variance(方差)

σ2=E{(xu)2}=(xμ)2p(x)dx

  • 数学表达式

p(x) N(μ,σ2)

1.2 多变量正态分布


[贝叶斯七]之正态分布贝叶斯决策

  • 多变量pdf表达

p(x)=1(2π)1/2||1/2exp{12(xμ)T1(xμ)},xRl

  • Mean Vector(均值)

μ=E[x]=E[x1,x2,.....,xl]

  • Convariance matrix (协方差矩阵)

(1)=E[(xμ)(xμ)T]

=[σ112σ122σ1l2σ212σ222σ2l2σl12σl22σll2]

  • 数学表达

p(x) N(μ,Σ)

1.3 正态分布的特点

  • K个参数(均值和方差)决定Ldim 的正态分布

K=l+l (l+1)/2

  • 超椭球面(super-ellipsoid)上点概率值相等


[贝叶斯七]之正态分布贝叶斯决策

  • 协方差矩阵的特征向量决定主轴,而且主轴的长度和协方差矩阵的特征向量是成比例的。
  • 对于正态分布来说,不相关和独立是相等的
  • 如果x是独立的,那么协方差矩阵是对角矩阵

二、贝叶斯分类器设计

这一小节的目的是:在输入x是正态分布的前提下(假设输入的变量是服从正态分布的),设计一个最小误差MPE贝叶斯分类器

2.1 理论推导

这里,我们考虑每个类别数据都是服从正态分布的。同样的,我们判决函数用ln函数,那么我们能得到如下的决策函数。

(2)gi(x)=ln [p(x|wi)p(wi)](3)=ln p(x|wi)+ln p(wi)

然后,因为x是服从正态分布的,由此,我们将x的函数带入到上式。得到如下式子。

(1)gi(x)=12ln (2π)12ln |Σi|12(xμi)TΣi1(xμi)+ln p(wi)

根据决策面方程(第i类和第j类的分界面):

gij(x)=gi(x)gj(x)=0

由此我们可以推导出决策面:

12[(xμi)TΣi1(xμi)(xμj)TΣj1(xμj)]12ln |Σi|Σj+ln p(wi)p(wj)=0

显然,该方程是一个二次曲面,如下图所示。


[贝叶斯七]之正态分布贝叶斯决策

2.2 简化case1: 最小欧式距离

Step1: 做个假设

我们发现这个方程其实还是很难的,而且虽然每个类别样本都是服从正态分布,但是正态分布也会因为协方差矩阵不同而千差万别(就像单变量正态分布,如果方差不一样,那么他们之间的胖瘦就不一样)。不仅如此,多变量正态分布还存在属性之间的关系等等。所以,这里为了进一步分析上面的方程,就像朴素贝叶斯一样,我们也可以做一些强的假设。假设条件如下:

  • 我们假设协方差矩阵元素相等,而且是一个对角阵。即特征向量之间是相互独立的,方差相等
  • 因为每个类别的协方差矩阵相等,我们可以忽略决策函数(公式(1))中的第1项和第2项,那么可以得到一个简化的判定函数如下。

(2)(4)gi(x)=12(xμi)TΣi1(xμi)+ln p(wi)(5)=12xTΣ1x+(Σ1μi)T x12μiTΣ1μi+ln p(wi)

  • 上式中的第1个二次项与类别无关,因此完全可以忽略。

经过上述简化过程之后,简化后的决策函数(公式2)可以接着改写为如下的式子。

(3)gi(x)=(Σ1μi)Tx12μiTΣ1μi+ln p(wi)

简化后的决策函数(公式3)过于冗余,我们可以用一些变量来进行替换,做如下几个定义。

{wi=Σ1μiwi0=12μiTΣ1μi+ln p(wi)

由此,我们可以将公式3改写成如下的式子。

(4)gi(x)=wiTx+wi0

哇哦~~~~可以说是非常的爽了。数学讲究的简单就是美~!!!不着急。。。还没完呢,现在我们假设的是类别样本都是标准的、除了μ不同的正态分布。最终是想知道和μ之间有什么关系。所以。。。。接着来,我们要把μ给牵出来。

Step2:牵出μ

从上式可以看出,这个判决函数是一个线性函数,所以我们所要得到的决策面是一个超平面(Hyperplane)。

继续,将Σ=σ2I带入到公式4,由此我们能得到如下的式子。

(5)gi(x)=1σ2μiTx+wi0

接着,同样的,我们做一些定义(定义有点多,有点绕,但,相信,结果会非常美好的!!)

{w=μiμjx0=12(μi+μj)σ2ln (p(wi)p(wj))μiμj||μiμj||2

我们将这个定义带入上述决策函数(公式5)中,并结合之前的决策面方程,得到如下的表达式。

(6)(6)gij(x)=gi(x)gj(x)(7)=wT(xx0)

这个式子可以说是完美了~~~~

Step3: 中场分析

重新温习一下。。。我们得到了公式6,其中:

  • w=μiμj
  •  x0 只和 μi,μj,p(wi),p(wj) 有关,而这些全是定值,所以x0显然是定值。

所以这个式子是完美的。由这个式子,我们能轻而易举的得到如下的启示:

  • 决策面是一个超平面(Hyperplane),而且超平面显然是通过 x0 这个定点的,而且是垂直于w

这样真的堪称完美了吧? 怎么还是中场分析? 别着急。。。

Step4: 再假设

由上式可以看出,虽然x0是一个定值,但是一大串,总感觉不舒服。搞个假设,再次弱化这个case。

假设:

  • 如果这两个类别ij出现的概率是一样,显然就是p(wi)=p(wj)

这样就好玩了,我们再写一下x0的表达式。

x0=12(μi+μj)σ2ln (p(wi)p(wj))μiμj||μiμj||2

因为p(wi)=p(wj),显然,x0=(μi=μj)/2

我的天啊,,这是什么玩意。。看看我们的决策面:

(8)wT(xx0)=0(9)where,w=μiμj,x0=(μi+μj)/2

我的天啊,这不是最小欧式距离分类器么?

怎么说呢?我们先将我们的前置、结果展现一下。我们是假设每个类别都是服从正态分布的,然后设计了一个MPE贝叶斯分类器。然后我们假设了类内的元素都是独立的,然后继续推导就得到了上述式子。整理这个过程表达式如下。

(10)p(xi|wi)N(μi,σ2),Σ1=Σ2=σ2I,p(wi)=p(wj)(11)wT(xx0)=0where,w=μiμj,x0=(μi+μj)/2

下面我们仔细分析一下这个结果。我们假设,有2个类别(M = 2),为了方便展示,我们假设特征空间是2维的(l = 2),那么我们能得到如下的图像。


[贝叶斯七]之正态分布贝叶斯决策

如上图所示,同心圆可以表示两个类别。同心圆的中心点就是均值点。为什么是同心圆?显然因为我们的特征空间是2维,如果画出来,正态分布肯定是一座小山,朝xoy平面投影后就成了上述形式(这里还有假设元素相互独立,协方差矩阵元素是相等的,由此更上一层,变成等距同心圆了),可以详细的看正态分布所简述的特点。由此,我们可以得到如下启示。

  • 决策面是一条线(通过了x_0点),而且垂直于两个类别均值点的连线,也就是我们之前所阐述的w
  • 如果样本x落在了线的左侧,那么显然就是属于类别1。如果落在了线的右侧,显然就是类别2了。
  • 在这样的case中,x_0显然是两个类别均值点连线线段的中点。


[贝叶斯七]之正态分布贝叶斯决策

思考:
上述推导我们做了很多假设条件。现在我们回退一步,之前不是要类别出现的概率相等么?即p(wi)=p(wj)。现在我们假设他们不相等会怎么样?

读者可以按照上述推导过程,自己推导一遍,加深对该推导过程的理解。非常interesting。

当然,我们会告诉你结果的。。


[贝叶斯七]之正态分布贝叶斯决策

线

2.3 简化case2:马氏距离推导

2.2小节中,case的假设非常强。现在我们逐步的弱化,假设条件如下。

  • 协方差矩阵不是对角矩阵,但是每个类别的均方差是相等的。

(12)p(x|wi)N(μi,σ2)(13)Σi=Σ(14)p(wi)p(wj),i,j=1,2,3,,M

  • 由此可见类别内样本形成的都是超椭球形

根据上述case1的推导,我们可以得到如下判决函数:

gi(x)=12σ2(xμi)TΣ1(xμi)+ln p(wi)

不难发现,首项就是一个马氏距离公式。表示样本x到类别i均值点的马氏距离平方。如下式子就是马氏距离的平方。

dM2=(xμi)TΣ1(xμi)

经过上述推导,可以得到如下的表达式。

(15)gi(x)=gj(x)(16)wT(xx0),where,w=Σ1(μiμj),(17)x0=12(μi+μj)ln (p(wi)/p(wj))(μiμj)TΣ1(μiμj)(μiμj)

画图表示如下,感兴趣的推荐自己动手推一遍。


[贝叶斯七]之正态分布贝叶斯决策

2.4 General

以下是几个普通化的例子。


[贝叶斯七]之正态分布贝叶斯决策


<个人网页blog已经上线,一大波干货即将来袭:https://faiculty.com/>

/* 版权声明:公开学习资源,只供线上学习,不可转载,如需转载请联系本人 .*/