1 假设
计算P(X|Ci),朴素贝叶斯分类假设类条件独立,即给定样本属性值相互条件独立。
P(x1,…,xk|Ci)=P(x1|Ci)⋅…⋅P(xk|Ci)
2 Notion
贝叶斯定理:
P(Ci|X)=P(X|Ci) ⋅ P(Ci)P(X)=P(X|Ci) ⋅ P(Ci)∑cj=1P(X|Cj) ⋅ P(Cj)
i 表示 label 的类别数
j 也表示 label 的类别数,只是为了区别于i
先验概率 prior probability:P(Ci)
概率密度函数 probability density function: P(X|Ci)
后验概率 posteriori probabilities:P(Ci|X)
总结,根据先验概率和概率密度函数,计算后验概率
eg: 对于一个二分类问题,yes or no, 对应的贝叶斯公式如下
P(Yes|X)=P(X|Yes)⋅P(Yes)P(X)=P(X|Yes) ⋅ P(Yes)P(X|Yes)⋅P(Yes)+P(X|No)⋅P(No)
P(No|X)=P(X|No)⋅P(No)P(X)=P(X|No) ⋅ P(No)P(X|Yes)⋅P(Yes)+P(X|No)⋅P(No)
如果P(Yes|X)>P(No|X),分类结果为 Yes,反之结果为 No
3 Simple Example
对X={Gender=Female,Income=High,Age=Middle} 计算分类结果 Yes or No
P(Yes)=3/6
由图知
P(Gender=Female∣Yes)=2/3
P(Income=High∣Yes)=3/3
P(Age=Middle∣Yes)=1/3
所以
P(X∣Yes)⋅P(Yes)=P(Gender=Female∣Yes)⋅P(Income=High∣Yes)⋅P(Age=Middle∣Yes)⋅P(Yes)=23×33×13×36≈0.111
P(No)=3/6
由图知
P(Gender=Female∣No)=1/3
P(Income=High∣No)=1/3
P(Age=Middle∣No)=2/3
所以
P(X∣No)⋅P(No)=P(Gender=Female∣No)⋅P(Income=High∣No)⋅P(Age=Middle∣No)⋅P(No)=13×13×23×36=0.037
P(Yes|X)=P(X|Yes) ⋅ P(Yes)P(X|Yes)⋅P(Yes)+P(X|No)⋅P(No)=0.1110.111+0.037=75%
P(No|X)=P(X|No) ⋅ P(No)P(X|Yes)⋅P(Yes)+P(X|No)⋅P(No)=0.0370.111+0.037=25%
因为
P(Yes|X)>P(No|X)
所以
分类结果为Yes
4 基于最小错误率的贝叶斯决策
为什么后验概率要利用Bayes公式从先验概率和类条件概率密度函数计算获得。这是因为计算概率都要拥有大量数据才行。在估计先验概率与类条件概率密度函数时都可搜集到大量样本,而对某一特定事件(如x)要搜集大量样本是不太容易
的。因此只能借助Bayes公式来计算得到。
对基于最小错误率的贝叶斯决策来说,以后验概率值的大小作判据是最基本的方法,而其它形式的作用(如下)都基本相同,但使用时更方便些。
(1)



(4) 似然比的负对数 -ln


如下图所示

阴影处就是p(e)
也可以写成

4 基于最小风险贝叶斯决策
加了权重
在决策中,除了关心决策的正确与否,有时我们更关心错误的决策将带来的损失。比如在判断细胞是否为癌细胞的决策中,若把正常细胞判定为癌细胞,将会增加患者的负担和不必要的治疗,但若把癌细胞判定为正常细胞,将会导致患者失去宝贵的发现和治疗癌症的机会,甚至会影响患者的生命。这两种类型的决策错误所产生的代价是不同的。
考虑各种错误造成损失不同时的一种最优决策,就是所谓的最小风险贝叶斯决策。设对于实际状态为wj 的向量xx采取决策αi 所带来的损失为

该函数称为损失函数,通常它可以用表格的形式给出,叫做决策表。需要知道,最小风险贝叶斯决策中的决策表是需要人为确定的,决策表不同会导致决策结果的不同,因此在实际应用中,需要认真分析所研究问题的内在特点和分类目的,与应用领域的专家共同设计出适当的决策表,才能保证模式识别发挥有效的作用。
对于一个实际问题,对于样本xx,最小风险贝叶斯决策的计算步骤如下:
(1)利用贝叶斯公式计算后验概率:

其中要求先验概率和类条件概率已知。
(2)利用决策表,计算条件风险:

(3)决策:选择风险最小的决策,即:

现在用之前的判别细胞是否为癌细胞为例。状态1为正常细胞,状态2为癌细胞,假设:


参考
最小风险贝叶斯决策