[贝叶斯一]之贝叶斯理论

一、基本概念

贝叶斯理论是机器学习中一个核心方法,它由英国数学家托马斯贝叶斯在1763年发表的一篇论文中首先提出这个定理。贝叶斯定理是用来度量不确定性事件的,比如今天下雨概率,是一种概率模型。

在介绍贝叶斯理论之前我们先看看统计模式识别(statistical pattern recognition)中的一些概率知识。假设有一组随机数据X=[x1,x2,x3,......xl]TRl,它们属于M个类别 Ω={w1,w2,w3,........,wm}. 下面有三个比较常用的概念。

  • 首先是类别wi出现的概率,我们称之为先验概率(priori probability)p(wi),i=1,2,3,4,......M
  • 然后是某个样本属于类别wi的概率,称为后验概率(Posterior probability):p(wi|x),i=1,2,3M.
  • 最后是似然(Likelihood):p(x|wi),i=1,2,3M.

贝叶斯定理就是一个条件概率,所谓“条件概率”,就是指在事件B发生的情况下,事件A发生的概率,用p(A|B)=p(AB)p(B) 表示。

二、全概率公式

这部分内容主要是属于概率论中的内容,具体的例子,请看本站的基础数学部分。这里简单明了的直接阐述定理。

定理(来自浙大概率论第4版):
设试验E的样本空间为SAE的事件,B1,B2,B3......,BnS的一个划分,且P(Bi)>0 (i=1,2,3,......,n),则

P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+........+P(A|Bn)P(Bn)

上式就称为全概率公式

物理意义:全概率公式是由条件概率公式p(A|B)=p(AB)p(B)推导而来,当P(B)>0的时候,P(AB)=P(A|B)P(B).

三、贝叶斯公式

定理(来源于浙大概率论第4版):
设试验E的样本空间为S. AE的事件,B1,B2,B3......,BnS的一个划分,且P(A)>0,P(Bi)>0 (i=1,2,3,......,n),则

P(Bi|A)=P(A|Bi)P(Bi)j=0n P(A|Bj)P(Bj)

证明:
由条件概率的定义及全概率公式既得:

(1)P(Bi|A)=P(BiA)P(A)(2)=P(A|Bi)P(Bi)j=0n P(A|Bj)P(Bj)

通常的,在进行分类判断的时候,我们将贝叶斯公式写成如下形式。

p(wi|x)=p(x|wi)p(wi)p(x)

其中:

  • wi表示第i个类别,w就是总类别的一个划分
  • x表示一个样本

我们对上式两边取对数,得到如下形式。

ln p(wi|x)=ln p(x|wi)+ln p(wi)p(x)

例题(来自概率论浙大第4版):
[贝叶斯一]之贝叶斯理论

三、参考文献

[1] 《概率论与数理统计(浙大第4版)》


其它平台只是信息转发(留言可能看不到),欢迎同学们到个人blog交流:https://faiculty.com/