Naive Bayes(Simple Example)


1 假设

计算P(X|Ci),朴素贝叶斯分类假设类条件独立,即给定样本属性值相互条件独立。

P(x1,,xk|Ci)=P(x1|Ci)··P(xk|Ci)

2 Notion

贝叶斯定理

P(Ci|X)=P(X|Ci)  P(Ci)P(X)=P(X|Ci)  P(Ci)j=1cP(X|Cj)  P(Cj)

i 表示 label 的类别数

j 也表示 label 的类别数,只是为了区别于i

先验概率 prior probabilityP(Ci)

概率密度函数 probability density function: P(X|Ci)

后验概率 posteriori probabilitiesP(Ci|X)

总结,根据先验概率和概率密度函数,计算后验概率

eg: 对于一个二分类问题,yes or no, 对应的贝叶斯公式如下

P(Yes|X)=P(X|Yes)P(Yes)P(X)=P(X|Yes)  P(Yes)P(X|Yes)P(Yes)+P(X|No)P(No)

P(No|X)=P(X|No)P(No)P(X)=P(X|No)  P(No)P(X|Yes)P(Yes)+P(X|No)P(No)

如果P(Yes|X)>P(No|X),分类结果为 Yes,反之结果为 No


3 Simple Example

Naive Bayes(Simple Example)

X={Gender=Female,Income=High,Age=Middle} 计算分类结果 Yes or No


P(Yes)=3/6

Naive Bayes(Simple Example)

由图知

P(Gender=FemaleYes)=2/3

P(Income=HighYes)=3/3

P(Age=MiddleYes)=1/3

所以

P(XYes)P(Yes)=P(Gender=FemaleYes)P(Income=HighYes)P(Age=MiddleYes)P(Yes)=23×33×13×360.111


P(No)=3/6

Naive Bayes(Simple Example)

由图知

P(Gender=FemaleNo)=1/3

P(Income=HighNo)=1/3

P(Age=MiddleNo)=2/3

所以

P(XNo)P(No)=P(Gender=FemaleNo)P(Income=HighNo)P(Age=MiddleNo)P(No)=13×13×23×36=0.037


P(Yes|X)=P(X|Yes)  P(Yes)P(X|Yes)P(Yes)+P(X|No)P(No)=0.1110.111+0.037=75%

P(No|X)=P(X|No)  P(No)P(X|Yes)P(Yes)+P(X|No)P(No)=0.0370.111+0.037=25%

因为

P(Yes|X)>P(No|X)

所以

分类结果为Yes

4 基于最小错误率的贝叶斯决策

为什么后验概率要利用Bayes公式从先验概率和类条件概率密度函数计算获得。这是因为计算概率都要拥有大量数据才行。在估计先验概率与类条件概率密度函数时都可搜集到大量样本,而对某一特定事件(如x)要搜集大量样本是不太容易
的。因此只能借助Bayes公式来计算得到。

对基于最小错误率的贝叶斯决策来说,以后验概率值的大小作判据是最基本的方法,而其它形式的作用(如下)都基本相同,但使用时更方便些。

(1)
Naive Bayes(Simple Example)

Naive Bayes(Simple Example)

Naive Bayes(Simple Example)

(4) 似然比的负对数 -ln

Naive Bayes(Simple Example)

Naive Bayes(Simple Example)

如下图所示

Naive Bayes(Simple Example)
阴影处就是p(e)

也可以写成
Naive Bayes(Simple Example)

4 基于最小风险贝叶斯决策

加了权重

在决策中,除了关心决策的正确与否,有时我们更关心错误的决策将带来的损失。比如在判断细胞是否为癌细胞的决策中,若把正常细胞判定为癌细胞,将会增加患者的负担和不必要的治疗,但若把癌细胞判定为正常细胞,将会导致患者失去宝贵的发现和治疗癌症的机会,甚至会影响患者的生命。这两种类型的决策错误所产生的代价是不同的。

考虑各种错误造成损失不同时的一种最优决策,就是所谓的最小风险贝叶斯决策。设对于实际状态为wj 的向量xx采取决策αi 所带来的损失为

Naive Bayes(Simple Example)
该函数称为损失函数,通常它可以用表格的形式给出,叫做决策表。需要知道,最小风险贝叶斯决策中的决策表是需要人为确定的,决策表不同会导致决策结果的不同,因此在实际应用中,需要认真分析所研究问题的内在特点和分类目的,与应用领域的专家共同设计出适当的决策表,才能保证模式识别发挥有效的作用。
对于一个实际问题,对于样本xx,最小风险贝叶斯决策的计算步骤如下:
(1)利用贝叶斯公式计算后验概率:
Naive Bayes(Simple Example)

其中要求先验概率和类条件概率已知。
(2)利用决策表,计算条件风险:
Naive Bayes(Simple Example)

(3)决策:选择风险最小的决策,即:
Naive Bayes(Simple Example)

现在用之前的判别细胞是否为癌细胞为例。状态1为正常细胞,状态2为癌细胞,假设:
Naive Bayes(Simple Example)

Naive Bayes(Simple Example)


参考
最小风险贝叶斯决策