机器学习复习15-朴素贝叶斯
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。
朴素贝叶斯分类
借助例题进行分析
朴素贝叶斯算法的 朴素 一词 解释
那么这三个量是如何求得?
好的,上面我解释了为什么可以拆成分开连乘形式。那么下面我们就开始求解:
计算过程(简单,熟悉可略过)
结果
算法评价
补充:平滑方法
平滑smoothing方法-
针对有些词在语料库中没出现但语法合适却概率为0的解决方法
1. Add-one Smoothing(拉普拉斯平滑)
经常用在朴素贝叶斯中,这也是为什么在这里补充下smoothing的知识。
假设不用任何smoothing的方法,我们正常计算概率的时候,使用的其实是MLE,最大似然准则方法。只根据看到的现象进行估算概率。但是是有缺陷的,一旦有单词没出现在corpus中,则概率为0.
使用Add-1的smoothing方法,即如上图所示,V是词典大小。
那么,为什么分子+1,分母+V呢?为什么不加别的呢?
2. Add-K Smoothing(也是拉普拉斯平滑)
Add-1 是 Add-K的特例!K=1时即Add-1
我们通常会选择合适的K来训练LM,这里的K类似于模型中的超参数,需要不断的调整K来找到合适的K。但也可以用机器去帮我们去选择合适的K。
如何高效选择K?