[贝叶斯七]之正态分布贝叶斯决策
贝叶斯是非常传统,理论简单,但是非常有效的一种机器学习方法。经过大量实验表明,贝叶斯方法是极具鲁棒性的。至今为止仍然有很多人在研究贝叶斯的基础理论,而且发现许多算法都可以由贝叶斯推导而来,所以贝叶斯是具有极大的研究价值的理论。
这一章节我们就来扯一扯正态分布数据的贝叶斯决策理论,看看我们能搞点什么事情出来。自己多多推导,没准能发现新的大陆。许多优秀的算法,比如SVM等等往往就是这样诞生的。
这一节因为推导的东西比较多,可能很枯燥。所以先搞个大纲出来,看看我们接下来要搞点什么事情。
- 正态分布
- 单变量正态分布
- 多变量正态分布
- 正态分布的特点
- 贝叶斯分类器设计
- 理论推导
- 简化case1:最小欧式距离
- 简化case2:马氏距离
- General
主要就是这样一个构架了,谈正态分布的贝叶斯决策,显然我们得谈谈正态分布,然后由此出发,我们从最简单的case(增加各种假设条件,得到一个最简单的模型),然后依次General。
闲话少说,开始我们的旅程吧。
一、正态分布
这里不是将概率论,详情请看我们写的数学系列教程。这里我们从需求出发,简单阐述单变量正态分布、多变量正态分布,最重要的是阐述一下正态分布的特点。
1.1 单变量正态分布
首先,搞个热身运动。下面是最简单的单变量正态分布。
其中:
- Pdf(单变量概率密度函数)
- Mean Vector (均值)
- Variance(方差)
- 数学表达式
1.2 多变量正态分布
- 多变量pdf表达
- Mean Vector(均值)
- Convariance matrix (协方差矩阵)
- 数学表达
1.3 正态分布的特点
- 个参数(均值和方差)决定 的正态分布
- 超椭球面(super-ellipsoid)上点概率值相等
- 协方差矩阵的特征向量决定主轴,而且主轴的长度和协方差矩阵的特征向量是成比例的。
- 对于正态分布来说,不相关和独立是相等的
- 如果x是独立的,那么协方差矩阵是对角矩阵
二、贝叶斯分类器设计
这一小节的目的是:在输入是正态分布的前提下(假设输入的变量是服从正态分布的),设计一个最小误差MPE贝叶斯分类器。
2.1 理论推导
这里,我们考虑每个类别数据都是服从正态分布的。同样的,我们判决函数用函数,那么我们能得到如下的决策函数。
然后,因为是服从正态分布的,由此,我们将的函数带入到上式。得到如下式子。
根据决策面方程(第类和第类的分界面):
由此我们可以推导出决策面:
显然,该方程是一个二次曲面,如下图所示。
2.2 简化case1: 最小欧式距离
Step1: 做个假设
我们发现这个方程其实还是很难的,而且虽然每个类别样本都是服从正态分布,但是正态分布也会因为协方差矩阵不同而千差万别(就像单变量正态分布,如果方差不一样,那么他们之间的胖瘦就不一样)。不仅如此,多变量正态分布还存在属性之间的关系等等。所以,这里为了进一步分析上面的方程,就像朴素贝叶斯一样,我们也可以做一些强的假设。假设条件如下:
- 我们假设协方差矩阵元素相等,而且是一个对角阵。即特征向量之间是相互独立的,方差相等
- 因为每个类别的协方差矩阵相等,我们可以忽略决策函数(公式(1))中的第1项和第2项,那么可以得到一个简化的判定函数如下。
- 上式中的第1个二次项与类别无关,因此完全可以忽略。
经过上述简化过程之后,简化后的决策函数(公式2)可以接着改写为如下的式子。
简化后的决策函数(公式3)过于冗余,我们可以用一些变量来进行替换,做如下几个定义。
由此,我们可以将公式3改写成如下的式子。
哇哦~~~~可以说是非常的爽了。数学讲究的简单就是美~!!!不着急。。。还没完呢,现在我们假设的是类别样本都是标准的、除了不同的正态分布。最终是想知道和之间有什么关系。所以。。。。接着来,我们要把给牵出来。
Step2:牵出
从上式可以看出,这个判决函数是一个线性函数,所以我们所要得到的决策面是一个超平面(Hyperplane)。
继续,将带入到公式4,由此我们能得到如下的式子。
接着,同样的,我们做一些定义(定义有点多,有点绕,但,相信,结果会非常美好的!!)
我们将这个定义带入上述决策函数(公式5)中,并结合之前的决策面方程,得到如下的表达式。
这个式子可以说是完美了~~~~
Step3: 中场分析
重新温习一下。。。我们得到了公式6,其中:
- 只和有关,而这些全是定值,所以显然是定值。
所以这个式子是完美的。由这个式子,我们能轻而易举的得到如下的启示:
- 决策面是一个超平面(Hyperplane),而且超平面显然是通过这个定点的,而且是垂直于
这样真的堪称完美了吧? 怎么还是中场分析? 别着急。。。
Step4: 再假设
由上式可以看出,虽然是一个定值,但是一大串,总感觉不舒服。搞个假设,再次弱化这个case。
假设:
- 如果这两个类别和出现的概率是一样,显然就是
这样就好玩了,我们再写一下的表达式。
因为,显然,。
我的天啊,,这是什么玩意。。看看我们的决策面:
我的天啊,这不是最小欧式距离分类器么?
怎么说呢?我们先将我们的前置、结果展现一下。我们是假设每个类别都是服从正态分布的,然后设计了一个MPE贝叶斯分类器。然后我们假设了类内的元素都是独立的,然后继续推导就得到了上述式子。整理这个过程表达式如下。
下面我们仔细分析一下这个结果。我们假设,有2个类别(M = 2),为了方便展示,我们假设特征空间是2维的(l = 2),那么我们能得到如下的图像。
如上图所示,同心圆可以表示两个类别。同心圆的中心点就是均值点。为什么是同心圆?显然因为我们的特征空间是2维,如果画出来,正态分布肯定是一座小山,朝xoy平面投影后就成了上述形式(这里还有假设元素相互独立,协方差矩阵元素是相等的,由此更上一层,变成等距同心圆了),可以详细的看正态分布所简述的特点。由此,我们可以得到如下启示。
- 决策面是一条线(通过了x_0点),而且垂直于两个类别均值点的连线,也就是我们之前所阐述的w
- 如果样本x落在了线的左侧,那么显然就是属于类别1。如果落在了线的右侧,显然就是类别2了。
- 在这样的case中,x_0显然是两个类别均值点连线线段的中点。
思考:
上述推导我们做了很多假设条件。现在我们回退一步,之前不是要类别出现的概率相等么?即。现在我们假设他们不相等会怎么样?
读者可以按照上述推导过程,自己推导一遍,加深对该推导过程的理解。非常interesting。
当然,我们会告诉你结果的。。
2.3 简化case2:马氏距离推导
2.2小节中,case的假设非常强。现在我们逐步的弱化,假设条件如下。
- 协方差矩阵不是对角矩阵,但是每个类别的均方差是相等的。
- 由此可见类别内样本形成的都是超椭球形
根据上述case1的推导,我们可以得到如下判决函数:
不难发现,首项就是一个马氏距离公式。表示样本x到类别i均值点的马氏距离平方。如下式子就是马氏距离的平方。
经过上述推导,可以得到如下的表达式。
画图表示如下,感兴趣的推荐自己动手推一遍。
2.4 General
以下是几个普通化的例子。
<个人网页blog已经上线,一大波干货即将来袭:https://faiculty.com/>
/* 版权声明:公开学习资源,只供线上学习,不可转载,如需转载请联系本人 .*/