机器学习-算法-贝叶斯分类算法
概念:
首先我们先给出通俗事件引导出具体概念 1、70%降水 机器学习算法中,有一种依赖概率原则进行分类的朴素贝叶斯算法,正如气象学家预测天气一样, 朴素贝叶斯算法就是应用先前事件的有关数据来估计未来发生的概率 2、了解上面的通俗概念为了强化理解我现在就给出一个具体案例
一所学校里面有 60% 的男生,40%的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。
假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,
而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?
我们先不给出答案,先分析一下
分析: 这所学校男生的概率是60%
女生的概率是40%
穿长裤的男生的概率是100%
穿长裤的女生的概率是50%
这些我们清楚之后我们来看一下以下问题
1、随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大?(假设U代表这个学校的总人数,P代表概率)
男生中穿长裤人数=U*P(男生)*P(长裤|男生)
女生中穿长裤人数=U*P(女生)*P(长裤|女生)
那么穿长裤的总人数=U*(男生)*P(长裤|男生)+U*(女生)*P(长裤|女生)=0.8U
进而可以得出这所学校中穿裙子的总人数=0.2U
2、得到上面的结果之后 我会看一下题目我们要求的是什么?现在要求的P(男生|长裤)
那么我们可以反向思维先推导出P(女生|长裤),进而得出我们想要的答案P(女生|长裤)=穿长裤的女生/穿长裤的总人数
=U*P(女生)*P(长裤|女生)/0.8U=0.25
3、假设
女生=B;
长裤=A;
带入2中的公式得
P(B|A)=P(AB)/P(A)--------(P(AB)表示A B同时发生的概率)
P(AB)=P(B|A)*P(A)=P(B)*P(A|B)
进而带出答案 也是我们要推导出的朴素贝叶斯公式
P(A|B)=P(B|A)*P(A)/P(B)
3、理解朴素贝叶斯公式
贝叶斯经常用于分类,一般用于文本的分类
从上面的公式中 等号右边我们通常叫它们先验概率,等号左边我们叫它后验概率,一般是给出先验概率去推导求出
后验概率
4、提到朴素贝叶斯公式不得不提的拉布拉斯估计
拉布拉斯估计本质上是给频率表中的每个计数加上一个较小的数,这样就保证了每一类中每个特征发生的概率非零
通常情况下,拉布拉斯估计中加上的数值设定为1,这样就保证每个特征至少在数据中出现一次。
(频率表)