朴素贝叶斯
大纲:
1. 贝叶斯定理
2. 贝叶斯分类及公式推导
3. 后验概率最大化的含义
4. 朴素贝叶斯的参数估计(拉普拉斯平滑)
a.为什么要使用拉普拉斯平滑
“用极大似然估计可能会出现所要估计的概率值为0的情况,这是会影响后验概率的计算结果,使分类产生偏差。”
——《统计学习方法》
公式如下:
解释:在数据中可能会有某些类别的值缺失,例如一个特征的取值为(1、2、3),但在数据中缺少1这个值的记录,不做拉普拉斯平滑,P(x=1|y=k)的先验概率就是0,当测试集给定的特征包含1这个值,因为它先验概率的影响,该样本的后验概率值就是0,直接影响了分类器的效果。
5. 朴素贝叶斯为什么朴素
简单的说,朴素贝叶斯假设数据中的每个特征看作独立分布,忽略了特征之间的联系。
6. 参考
a. 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
b. 《统计学习方法》P47-P53