朴素贝叶斯分类器

朴素贝叶斯的基本原理,可以看以下视频。

人工智能公开课——朴素贝叶斯垃圾邮件过滤实战

朴素贝叶斯分类器

贝叶斯的基本思想是利用先验概率来推算出后验概率,先验概率来源于训练数据,而后验概率来源于测试数据。

训练数据,可以事先统计得出。而测试数据则是实际使用过程中输入的数据。

使用贝叶斯公式的前提条件是各个特征互为独立事件,这在实际情况中难以成立。贝叶斯分类器非常依赖于训练数据,不同的训练数据,很容易产生不同的结果。这两点限制了朴素贝叶斯分类器的应用领域。

朴素贝叶斯分类器

朴素贝叶斯分类器

朴素贝叶斯分类器

朴素贝叶斯分类器

但是直接使用朴素贝叶斯算法,可能会算出某特征的概率为0的情况,这与实际情况不相符。

这时,可以使用拉普拉斯平滑,公式如下图所示。

朴素贝叶斯分类器

一般,λ取1,Kλ就是种类个数。

这样,计算特征概率时,分子不为0,结果也不为0,又保证每个特征概率在0~1之间,同时各个概率之和为1。