机器学习.周志华《7 贝叶斯分类器》

贝叶斯决策论

贝叶斯公式:

机器学习.周志华《7 贝叶斯分类器》

贝叶斯决策论:是概率框架下实施决策的基本方法;

贝叶斯分类器:是利用概率的知识完成数据的分类任务,在机器学习中使用贝叶斯决策论实施决策的基本方法也是在概率的框架下进行的,它是考虑如何基于这些概率和误判损失来选择最优的类别标记。

条件风险/期望损失:

机器学习.周志华《7 贝叶斯分类器》

贝叶斯判定准则:为最小化总体风险,在每个样本上选择那个能使条件风险R(c|x)最小的类别标记;

机器学习.周志华《7 贝叶斯分类器》

要使用贝叶斯判定准则,需要先获得后验概率P(c|x):

策略1:判别式模型:直接对 P(c | x)进行建模求解;Eg:决策树、BP神经网络、SVM等

策略2:生成式模型:通过先对联合分布P(x,c)建模,从而进一步求解 P(c |x );Eg:贝叶斯

机器学习.周志华《7 贝叶斯分类器》

先验概率: 根据以往经验和分析得到的概率(一般为频率)。

后验概率:后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。


极大似然估计

概率模型的训练过程就是参数估计过程:

  • 方案一:频率主义学派----使用优化似然函数来确定参数值;
  • 方案二 : 贝叶斯学派---------假定参数服从一个先验分布,再根据观测到的数据计算参数的后验分布;

本文中采用极大拟然估计就是试图在所有的可能的取值中,找到一个能使数据出现的“可能性”的最大值。

步骤:

1.写出似然函数;

2.对似然函数取对数,并整理;

3.求导数,令偏导数为0,得到似然方程组;

4.解似然方程组,得到所有参数即为所求。



机器学习.周志华《7 贝叶斯分类器》

朴素贝叶斯分类器

提出背景:原始的贝叶斯分类器最大的问题在于联合概率密度函数的估计,首先需要根据经验来假设联合概率分布,其次当属性很多时,训练样本往往覆盖不够,参数的估计会出现很大的偏差。提出“属性条件独立性假设”

属性条件独立性假设(样本数据的所有属性之间相互独立):

机器学习.周志华《7 贝叶斯分类器》

对应的贝叶斯判定准则

机器学习.周志华《7 贝叶斯分类器》


机器学习.周志华《7 贝叶斯分类器》

平滑(smoothing)

Eg:拉普拉斯修正:

1、避免因训练集样本不充分导致概率估计为0的问题;

2、训练集变大时,修正过程引入的先验的影响逐渐可忽略,使估计值渐渐趋向实际概率值;


机器学习.周志华《7 贝叶斯分类器》


半朴素贝叶斯分类器

提出背景:现实生活中“属性条件独立性假设”很难成立,提出“半朴素贝叶斯分类器”

思想:适当考虑一部分属性之间的关系;

常用策略:独依赖估计(ODE,one-Dependent Estimator)

机器学习.周志华《7 贝叶斯分类器》

机器学习.周志华《7 贝叶斯分类器》


贝叶斯网

贝叶斯网(信念网),借助有向无环图DAG刻画属性间的依赖关系并使用条件概率表CPT描述属性的联合概率分布

B=<结构G , 属性Θ  >

G : 有向无环图;    结点:属性;    边:依赖关系;

Θ : 定量描述依赖关系;包含每个属性的条件概率表(xi:属性;πi:父节点集)

机器学习.周志华《7 贝叶斯分类器》


结构:

作用:表达属性间的条件独立性(属性间的依赖关系);

假设每个属性和他的非后裔属性独立,则联合概率分布定义:

机器学习.周志华《7 贝叶斯分类器》

Eg:

机器学习.周志华《7 贝叶斯分类器》

机器学习.周志华《7 贝叶斯分类器》

注:x3和x4在给定x1取值时独立,记为x3x4

贝叶斯网中的典型依赖关系:

机器学习.周志华《7 贝叶斯分类器》

同父:

给定x1,x3和x4条件独立;

若x1取值未知,则x3和x4不独立,也就是x3机器学习.周志华《7 贝叶斯分类器》x4不成立

V型结构(冲撞):

给定x4,x1和x2一定不独立;

若x4取值未知,则x1和x2是相互独立的;(边际独立性:记作机器学习.周志华《7 贝叶斯分类器》

顺序:

给定x,y和z条件独立;

注:对变量做积分或求和称为“边际化”

有向分离D-separation产生“道德图”(父节点相连过程叫”道德化“);

机器学习.周志华《7 贝叶斯分类器》


学习:

case1:贝叶斯网络结构已知-->直接学习;

case2:现实生活很难找到贝叶斯网络结构,则根据训练数据集找最“恰当”的贝叶斯网,常用“评分搜索”;

过程:定义一个评分函数(评估贝叶斯网与训练数据的契合程度),基于评分函数寻找结构最优的贝叶斯网(归纳偏好)。

最小描述长度准则MDL:

评分函数:


  机器学习.周志华《7 贝叶斯分类器》

训练集:D={x1,x2,...,xm};                                                           

贝叶斯网:B=<G , Θ  >

贝叶斯参数个数 : |B|

每个参数Θ所需的字节数 : f(Θ)  

贝叶斯B得对数似然 : LL(B | D)


机器学习.周志华《7 贝叶斯分类器》

网络结构空间搜索最优贝叶斯网结构是一个NP困难问题,难以快速解决,求近似解方法:

策略一:贪心法:Eg:从某个网络结构出发,每次调整一条边(增、删、调方向),知道评分函数值不再降低为止;

策略二:给网络结构添加约束来削减搜索空间;Eg:将网络结构限制为树形结构;


推断:

通过已知变量观测值来推测待查询变量的过程称为“推断(inference)”,已知称为证据(evidence);

贝叶斯网的近似推断方法
Eg:吉布斯采样(Gibbs sampling):

机器学习.周志华《7 贝叶斯分类器》

既不是采样是在贝叶斯网所有变量的联合状态空间与证据E=e已知的子空间中进行“随机漫步(random walk)”,每一步仅依赖于上一步的状态,这是一个马尔科夫链(Markov chain)。

马尔科夫链需要很长时间才能趋于平稳分布,因此吉布斯采样收敛速度较慢。

EM算法

由于Z是未观测变量(隐变量)集,可通过求Z得期望,最大化已观测数据的对数“边际似然”

机器学习.周志华《7 贝叶斯分类器》

EM作用:估计参数隐变量;迭代式方法;

基本实现:若参数Θ已知,则可以根据训练数据推断出最优隐变量Z的值(E步);反之,若Z值已知,则可以方便地对Θ做最大似然估计(M步);

机器学习.周志华《7 贝叶斯分类器》

机器学习.周志华《7 贝叶斯分类器》

两个步骤交替计算:

1、期望E步:利用当前估计的参数来计算对数似然的期望值;

2、最大化M步:寻找能使E步产生的是让期望最大化的参数值,再将参数值用于E步;

-----------------------------------------------------------------------------------------------------------*-*----

更多详细内容请关注公众号:目标检测和深度学习

机器学习.周志华《7 贝叶斯分类器》

---------------------------------------------------------------------------------------------------------------…^-^……---------