人工智能——机器学习——朴素贝叶斯算法

1,什么是朴素贝叶斯算法?

贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率,同时算法本身也比较简单。

人工智能——机器学习——朴素贝叶斯算法

人工智能——机器学习——朴素贝叶斯算法

人工智能——机器学习——朴素贝叶斯算法

2,使用朴素贝叶斯的前提是样本特征之间相互独立,依托条件概率的原理,事件A与事件B相互独立。

3,应用

分类是数据分析和机器学习领域的一个基本问题。文本分类已广泛应用于网络信息过滤、信息检索和信息推荐等多个方面。数据驱动分类器学习一直是近年来的热点,方法很多,比如神经网络、决策树、支持向量机、朴素贝叶斯等。相对于其他精心设计的更复杂的分类算法,朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。直观的文本分类算法,也是最简单的贝叶斯分类器,具有很好的可解释性,朴素贝叶斯算法特点是假设所有特征的出现相互独立互不影响,每一特征同等重要。但事实上这个假设在现实世界中并不成立:首先,相邻的两个词之间的必然联系,不能独立;其次,对一篇文章来说,其中的某一些代表词就确定它的主题,不需要通读整篇文章、查看所有词。所以需要采用合适的方法进行特征选择,这样朴素贝叶斯分类器才能达到更高的分类效率。

4,优点

    1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。

    2)算法简单,常用于文本分类

    3)分类准确度高,速度快

5,缺点

     1)由于需要样本特征之间独立,所以如果样本特征之间有关联时会影响算法结果的准确度。