第二十讲 朴素贝叶斯分类上

贝叶斯原理的几个概念:
先验概率: 通过经验判断事情发生的概率。
后验概率: 发生结果后推测原因的概率。
条件概率: B发生条件下A的概率。
似然函数: 描述概率可能性的参数。
贝叶斯原理就是求解后验概率。贝叶斯公式为:

第二十讲 朴素贝叶斯分类上

朴素贝叶斯
是一种简单但强大的预测建模算法。假设每个输入变量都是独立的。需要统计属性的条件概率。
为训练朴素贝叶斯模型,需要将类别概率和条件概率在训练数据中计算出来,之后可以用贝叶斯原理对新数据进行预测。

朴素贝叶斯分类工作原理

例如,判断陌生人的性别,我们可以根据以往经验(训练好的模型),身高、体重、头发长短(数据)等角度,来判断。
数据可以分为两种:
1、离散数据案例
第二十讲 朴素贝叶斯分类上
以上是以往经验,现给新数据:身高“高”,体重“中”,鞋码“中”,判断性别。
用A代表属性,用C代表类别,用贝叶斯公式可得出:
第二十讲 朴素贝叶斯分类上
公式中,分母是一样的,求分子最大值。假设Ai相互独立,则P(A1A2A3|Cj)=P(A1|Cj)P(A2|Cj)P(A3|Cj)
因此可以求出P(A1A2A3|C1)>P(A1A2A3|C2),应为男性。

连续数据案例
第二十讲 朴素贝叶斯分类上
则身高180、体重120、鞋码41,判断性别。
这时,可以假设身高、体重和鞋码都呈正态分布,通过样本,算出均值和方差,即正态分布的密度函数。将值代入函数就可以求出概率,用EXCEL中的NORM.DIST(180,均值,标准差,0)可以直接计算,P(A1|C1)=NORM.DIST(180,179.5,3.697,0)=0.1069;
最终求得P(A1A2A3|C1)=4.9169e-6,P(A1A2A3|C2)=2.7244e-9,则为男性的概率大。

朴素贝叶斯分类器的工作流程
第二十讲 朴素贝叶斯分类上
朴素贝叶斯分类器常用于文本分类。

总结:
第二十讲 朴素贝叶斯分类上