朴素贝叶斯

大纲:

1. 贝叶斯定理

2. 贝叶斯分类及公式推导

3. 后验概率最大化的含义

4. 朴素贝叶斯的参数估计(拉普拉斯平滑)

a.为什么要使用拉普拉斯平滑

“用极大似然估计可能会出现所要估计的概率值为0的情况,这是会影响后验概率的计算结果,使分类产生偏差。”

                                                                                                                                                           ——《统计学习方法》

公式如下:

朴素贝叶斯

解释:在数据中可能会有某些类别的值缺失,例如一个特征的取值为(1、2、3),但在数据中缺少1这个值的记录,不做拉普拉斯平滑,P(x=1|y=k)的先验概率就是0,当测试集给定的特征包含1这个值,因为它先验概率的影响,该样本的后验概率值就是0,直接影响了分类器的效果。

5. 朴素贝叶斯为什么朴素

简单的说,朴素贝叶斯假设数据中的每个特征看作独立分布,忽略了特征之间的联系。

6. 参考

a. 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

b. 《统计学习方法》P47-P53