统计学习笔记之朴素贝叶斯

简介

如果说前面笔记中所介绍的方法跟统计没什么明显联系的话,那么这里介绍的朴素贝叶斯就纯粹在用基于统计的方法解决问题。首先朴素贝叶斯是基于贝叶斯特征条件独立假设分类方法。通过特征条件独立假设来学习输入/输出的联合分布(P(x,y)),同时根据贝叶斯定理预测给定输入x的后验概率(P(y|x))最大的输出y。

一、贝叶斯分类方法

对应到工程上,给定一个数据集,我们先学习先验和条件概率,即

                                                                              统计学习笔记之朴素贝叶斯                                                                                 (1)

                                                统计学习笔记之朴素贝叶斯                          (2)

因此可以得到联合概率P(X,Y).同时根据条件独立假设,即:

                                            统计学习笔记之朴素贝叶斯

                                            统计学习笔记之朴素贝叶斯                                                                                     (3)

实际这个过程最后学到的是生成数据机制(生成模型),然后计算后验概率

                                         统计学习笔记之朴素贝叶斯                               (4)

将(3)带入(4)式:

                                         统计学习笔记之朴素贝叶斯                                (5)

因此贝叶斯分类则根据上述求得概率最大的Y即为最终分类结果:

                                        统计学习笔记之朴素贝叶斯                                (6)

注意,无论求Y取何值时的概率,分母都是相同的(P(x))所以实际也相当于:

                                       统计学习笔记之朴素贝叶斯                                          (7)

二、朴素贝叶斯法的参数估计

对应到工程上, 先验如何计算(极大似然估计):

                                                           统计学习笔记之朴素贝叶斯                                                                         (8)

                                                          统计学习笔记之朴素贝叶斯                                      (9)

其中,统计学习笔记之朴素贝叶斯即指示函数,其实就是特征函数,再白话一点就是真为1,假为0,这下完全明白了吧,就是统计当Y等于统计学习笔记之朴素贝叶斯的比例,也就是概率。同理,条件概率也是类似基于统计比例近似算作条件概率, 统计学习笔记之朴素贝叶斯表示x的第j维特征取到的值为统计学习笔记之朴素贝叶斯。当然,数据太少时,我们心知肚明,这样的统计当然是不可靠的,数据当然越多越好,越随机越好。公式如果抽象,那么通过一道例题可以帮助理解。

                                          统计学习笔记之朴素贝叶斯

                                               统计学习笔记之朴素贝叶斯

代码实现可以借鉴https://blog.csdn.net/weixin_40230767/article/details/79078641

同时,我们也考虑这样极端的情形,当样本中某一类样本数量为0,显然此时极大似然估计的值便是0,后续后验概率将受到影响。于是,人们提出来了一种方法——贝叶斯估计,将原来似然估计分子分母同时引入一个参数统计学习笔记之朴素贝叶斯

                                                          统计学习笔记之朴素贝叶斯                        (10)

                                                         统计学习笔记之朴素贝叶斯                                                              (11)

统计学习笔记之朴素贝叶斯=0即极大似然估计。当统计学习笔记之朴素贝叶斯=1,称拉普拉斯平滑。其中统计学习笔记之朴素贝叶斯.