一、基本概念
贝叶斯理论是机器学习中一个核心方法,它由英国数学家托马斯贝叶斯在1763年发表的一篇论文中首先提出这个定理。贝叶斯定理是用来度量不确定性事件的,比如今天下雨概率,是一种概率模型。
在介绍贝叶斯理论之前我们先看看统计模式识别(statistical pattern recognition)中的一些概率知识。假设有一组随机数据X=[x1,x2,x3,......xl]T∈Rl,它们属于M个类别 Ω={w1,w2,w3,........,wm}. 下面有三个比较常用的概念。
- 首先是类别wi出现的概率,我们称之为先验概率(priori probability)。p(wi),i=1,2,3,4,......M
- 然后是某个样本属于类别wi的概率,称为后验概率(Posterior probability):p(wi|x),i=1,2,3……M.
- 最后是似然(Likelihood):p(x|wi),i=1,2,3……M.
贝叶斯定理就是一个条件概率,所谓“条件概率”,就是指在事件B发生的情况下,事件A发生的概率,用p(A|B)=p(AB)p(B) 表示。
二、全概率公式
这部分内容主要是属于概率论中的内容,具体的例子,请看本站的基础数学部分。这里简单明了的直接阐述定理。
定理(来自浙大概率论第4版):
设试验E的样本空间为S,A为E的事件,B1,B2,B3......,Bn为S的一个划分,且P(Bi)>0 (i=1,2,3,......,n),则
P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+........+P(A|Bn)P(Bn)
上式就称为全概率公式。
物理意义:全概率公式是由条件概率公式p(A|B)=p(AB)p(B)推导而来,当P(B)>0的时候,P(AB)=P(A|B)P(B).
三、贝叶斯公式
定理(来源于浙大概率论第4版):
设试验E的样本空间为S. A为E的事件,B1,B2,B3......,Bn为S的一个划分,且P(A)>0,P(Bi)>0 (i=1,2,3,......,n),则
P(Bi|A)=P(A|Bi)P(Bi)∑nj=0 P(A|Bj)P(Bj)
证明:
由条件概率的定义及全概率公式既得:
P(Bi|A)=P(BiA)P(A)=P(A|Bi)P(Bi)∑nj=0 P(A|Bj)P(Bj)(1)(2)
通常的,在进行分类判断的时候,我们将贝叶斯公式写成如下形式。
p(wi|x)=p(x|wi)p(wi)p(x)
其中:
-
wi表示第i个类别,w就是总类别的一个划分
-
x表示一个样本
我们对上式两边取对数,得到如下形式。
ln p(wi|x)=ln p(x|wi)+ln p(wi)−p(x)
例题(来自概率论浙大第4版):
三、参考文献
[1] 《概率论与数理统计(浙大第4版)》
其它平台只是信息转发(留言可能看不到),欢迎同学们到个人blog交流:https://faiculty.com/