朴素贝叶斯分类算法

主要内容
- 贝叶斯定理
- 朴素贝叶斯分类算法详解
- 朴素贝叶斯分类算法实例讲解
- 拉普拉斯平滑

1、贝叶斯定理
贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。已知某条件概率，如何得到两个事件交换后的概率，也就是在已知 $P (A | B)$ 的情况下如何求得 $P (B | A)$ 。其中， $P (A | B)$ 是在B发生的情况下A发生的可能性，计算如下：

贝叶斯定理：

2、朴素贝叶斯分类算法详解
（1） $x = (x_{1}, x_{2}, . . . x_{D})$ 表示含有D维属性的数据对象。训练集 $S$ 含有 $K$ 个类别，表示为 $y = (y_{1}, y_{2}, . . . y_{K})$ 。
（2）已知待分类数据对象 $x$ ，预测 $x$ 所属类别，计算方式如下：

所得

y_{k}

即为

x

所属类别。上式表示，已知待分类数据对象

x

的情况下，分别计算

x

属于

y_{1} 、 y_{2} 、 . . . 、 y_{K}

的概率，选取其中概率的最大值，此时所对应的

y_{k}

，即为

x

所属类别。
（3）根据贝叶斯定理，

P (y_{k} | x)

计算方式如下：

计算过程中，

P (x)

对于

P (y_{k} | x)

，相当于常数。因此，若想得到

P (y_{k} | x)

最大值，只需计算

P (x | y_{k}) P (y_{k})

最大值。如果类别的先验概率未知，即

P (y_{k})

未知，则通常假定这些类别是等概率的，即

P (y_{1}) = P (y_{2}) = . . . = P (y_{K})

。
（4）假设数据对象

x

的各属性之间相互独立，

P (x | y_{k})

计算方式如下：

（5）

P (x_{d} | y_{k})

的计算方式如下：
如果属性

A_{d}

是离散属性或分类属性。训练集中属于类别

y_{k}

的数据对象，在属性

A_{d}

下的相异属性值共有n个；训练集中属于类别

y_{k}

，且在属性

A_{d}

下的属性值为

x_{d}

的数据对象共有m个。因此，

P (x_{d} | y_{k})

计算方式如下：

如果属性

A_{d}

是连续属性。通常假设连续属性均服从均值为

μ

、标准差为

σ

的高斯分布，即

因此，

P (x_{d} | y_{k})

计算方式如下：

其中，

μ_{y_{k}}

、

σ_{y_{k}}

表示训练集中属于类别

y_{k}

的数据对象在属性

A_{d}

下的均值和标准差。
例如，设

x = (35, 40000 ￥)

，其中

A_{1}

、

A_{2}

分别是属性age、income。设类别属性为buys_computer，

x

的类别属性值为yes，即buys_computer=yes。针对连续属性age，假设训练集

S

中购买计算机的顾客年龄为

38 \pm 12

，即

μ_{a g e} = 38

、

σ_{a g e} = 12

。将

x_{a g e} = 35

、

μ_{a g e} = 38

、

σ_{a g e} = 12

待入至上述高斯函数中，所得结果即为

P (a g e = 35 | b u y s_c o m p u t e r = y e s)

的值。

3、朴素贝叶斯分类算法实例讲解
给定训练数据如表1，使用朴素贝叶斯分类预测未知数据对象的类标号。数据对象用属性age、income、student、credit_rating描述。类别属性buys_computer具有两个不同值，即yes、no。

表1 AllElectronics 顾客数据库标记类的训练数据朴素贝叶斯分类算法

待分类数据对象

x = (a g e = y o u t h, i n c o m e = m e d i u m, s t u d e n t = y e s, c r e d i t_r a t i n g = f a i r)

。
计算

P (y_{k})

：

P (b u y s_c o m p u t e r = y e s) = 9 / 14 = 0.643

P (b u y s_c o m p u t e r = n o) = 5 / 14 = 0.357

计算

P (x_{d} | y_{k})

：

P (a g e = y o u t h | b u y s_c o m p u t e r = y e s) = 2 / 9 = 0.222

P (a g e = y o u t h | b u y s_c o m p u t e r = n o) = 3 / 5 = 0.600

P (i n c o m e = m e d i u m | b u y s_c o m p u t e r = y e s) = 4 / 9 = 0.444

P (i n c o m e = m e d i u m | b u y s_c o m p u t e r = n o) = 2 / 5 = 0.400

P (s t u d e n t = y e s | b u y s_c o m p u t e r = y e s) = 6 / 9 = 0.667

P (s t u d e n t = y e s | b u y s_c o m p u t e r = n o) = 1 / 5 = 0.200

P (c r e d i t_r a t i n g = f a i r | b u y s_c o m p u t e r = y e s) = 6 / 9 = 0.667

P (c r e d i t_r a t i n g = f a i r | b u y s_c o m p u t e r = n o) = 2 / 5 = 0.400

计算

P (x | y_{k})

：

\begin{matrix} (1) & \begin{aligned} P (x | b u y s_c o m p u t e r = y e s) = & P (a g e = y o u t h | b u y s_c o m p u t e r = y e s) \times P (i n c o m e = m e d i u m | b u y s_c o m p u t e r = y e s) \\ \times P (s t u d e n t = y e s | b u y s_c o m p u t e r = y e s) \times P (c r e d i t_r a t i n g = f a i r | b u y s_c o m p u t e r = y e s) \\ = & 0.222 \times 0.444 \times 0.667 \times 0.667 = 0.044 \end{aligned} \end{matrix}

同理：

P (x | b u y s_c o m p u t e r = n o) = 0.600 \times 0.400 \times 0.200 \times 0.400 = 0.019

计算

P (x | y_{k}) P (y_{k})

：

P (x | b u y s_c o m p u t e r = y e s) P (b u y s_c o m p u t e r = y e s) = 0.044 \times 0.643 = 0.028

P (x | b u y s_c o m p u t e r = n o) P (b u y s_c o m p u t e r = n o) = 0.019 \times 0.357 = 0.007

由于

0.028 > 0.007

，因此，待分类数据对象

x

的类别为

b u y s_c o m p u t e r = y e s

。

4、拉普拉斯平滑
如果待分类数据对象 $x = (a g e = y o u t h, i n c o m e = m e d i u m, s t u d e n t = y e s, c r e d i t_r a t i n g = w o r s e)$ ，而原始训练集的属性credit_rating中没有worse属性值，此时 $P (c r e d i t_r a t i n g = w o r s e | b u y s_c o m p u t e r = y e s) = 0$ ，导致 $P (x | b u y s_c o m p u t e r = y e s) = 0$ 。然而真实情况中，待分类数据对象 $x$ 可能有较高的概率属于buys_computer=yes类别。
如何解决上述问题呢？这里介绍一种简单的方法——拉普拉斯平滑处理，思想大致如下：待分类样本 $x$ 的第 $d$ 个属性特征 $x_{d}$ 在类别 $y_{k}$ 中出现的概率表示为 $P (x_{d} | y_{k}) = \frac{m}{n}$ ，其中针对训练样本集合， $n$ 表示类别 $y_{k}$ 中数据对象的总个数， $m$ 表示第 $d$ 个属性特征 $x_{d}$ 在类别 $y_{k}$ 中出现的次数。假设，拉普拉斯平滑处理参数为 $λ$ 。经过拉普拉斯平滑处理之后， $P (x_{d} | y_{k}) = \frac{m + λ}{n + R λ}$ ，其中 $R$ 表示类别 $y_{k}$ 中样本第 $d$ 个属性特征不同取值的个数。相应的， $P (y_{k}) = \frac{n}{N}$ ，经过拉普拉斯平滑处理之后，变为 $P (y_{k}) = \frac{n + λ}{N + K λ}$ ，其中 $N$ 表示训练样本总个数， $K$ 表示训练样本类别个数。我们不难发现，通过拉普拉斯平滑处理能够有效避免概率为零的情况。
例假定在某个训练数据集上只有两种类别，类别buys_computer=no包含500个对象，类别buys_computer=yes包含1000个对象。其中，当buys_computer=yes时，有0个对象income=low，990个对象income=medium，10个对象income=high。不使用拉普拉斯平滑处理，这些事件的概率分别是 $P (i n c o m e = l o w | b u y s_c o m p u t e r = y e s) = 0$ 、 $P (i n c o m e = m e d i u m | b u y s_c o m p u t e r = y e s) = \frac{990}{1000}$ 、 $P (i n c o m e = h i g h | b u y s_c o m p u t e r = y e s) = \frac{10}{1000}$ 、 $P (b u y s_c o m p u t e r = y e s) = \frac{1000}{1500}$ 。当使用拉普拉斯平滑处理时，假设拉普拉斯平滑处理参数为 $λ = 1$ ，分别得到如下的概率：

P (i n c o m e = l o w | b u y s_c o m p u t e r = y e s) = \frac{1}{1003}, P (i n c o m e = m e d i u m | b u y s_c o m p u t e r = y e s) = \frac{991}{1003}, P (i n c o m e = h i g h | b u y s_c o m p u t e r = y e s) = \frac{11}{1003}, P (b u y s_c o m p u t e r = y e s) = \frac{1001}{1502}

经过拉普拉斯平滑处理之后的概率估计与对应的之前的概率估计很接近，但有效避免了零概率值。

朴素贝叶斯分类算法

朴素贝叶斯分类算法

相关推荐