机器学习算法之 贝叶斯分类
一、前期准备
1 先验概率与后验概率
(1) 概念
先验概率:事情还没有发生,要求这件事情发生的可能性的大小。
是根据以往经验和分析得到的概率。
后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。
(2) 举例
先验概率:
- 骰子,我们都知道概率是1/6,而且无数次重复实验也表明是这个数,这是一种我们人的常识。
- 明天中午以前的温度分布。合理的方法是将之前的正态分布预期值等于今天的中午温度,其方差等于大气温度的日常变化,或者是一年中的那一天的温度分布。
后验概率:
- 桌子上如果有一块肉喝一瓶醋,你如果吃了一块肉,然后你觉得是酸的,那你觉得肉里加了醋的概率有多大?你说:80%可能性加了醋.OK,你已经进行了一次后验概率的猜测.
(3) 两者联系
先验概率的计算比较简单,没有使用贝叶斯公式;
而后验概率的计算,要使用贝叶斯公式,以先验概率为基础。
参考网址:
[1]先验概率_百度百科
[2]后验概率_百度百科
[3]贝叶斯公式的直观理解(先验概率/后验概率)_博客园
2 类条件概率(或称“似然”)
(1)概念
类条件概率密度函数P(X|wi)是指在已知某类别的特征空间中,出现特征值X的概率密度,指第wi类样品其属性X是如何分布的,换言之即,条件wi下出现X的概率密度。
(2)举例
全世界华人占地球上人口总数的20%,但各个国家华人所占当地人口比例是不同的。
参考文献:
[1] 类条件概率密度_百度百科
3 联合概率分布
联合概率分布简称联合分布,随机向量X=(X1,X2,…,Xm) 的概率分布,称为随机变量X1,X2,…,Xm的联合概率分布。
对于二维离散随机向量,设X和Y都是离散型随机变量, 和 分别是X和Y的一切可能的集合,则X和Y的联合概率分布可以表示为如右图的列联表,也可以表示为如下的函数形式:
参考网址:
[1]类条件概率_百度百科
4 调和平均数
调和平均数(harmonic mean)又称倒数平均数,是总体各统计变量倒数的算术平均数的倒数。
在数学中调和平均数与算术平均数都是独立的自成体系的。
参考网址:调和平均数_百度百科
二、贝叶斯定理
[1] 形象理解:贝叶斯定理_由来_****博客
[2] 可怕的贝叶斯定理_调整因子_****博客
[3] 书籍理解:《数据挖掘概念与技术》
[4] 贝叶斯定理_公式推导
下面是例8.4的简化表示,和关于贝叶斯定理的总结,个人觉得便于理解记忆: