机器学习(五):贝叶斯学习

机器学习系列主要为 我在国科大研一期间,在《机器学习方法与应用》课程中所学知识概述,以及课后补充学习的内容。

----------------------------------------------------------------------------------------------------------------------------------

先验概率:用P(h)表示在没有观察到训练数据之前假设h拥有的初始概率,P(h)被称为假设h的先验概率。先验概率反映了关于假设h是一正确假设的机会的背景知识,如果没有这一先验知识,可以简单的将每一候选假设赋予相同的先验概率。

P(D)表示训练数据D的先验概率,那么P(D|h)就表示假设h成立时D的概率

在分类中,我们关系的是给定D时的h概率,即给定D,h成立的概率P(h|D)。称为h的后验概率

计算概率的基本公式:

交换规则 P(A,B) = P(B,A) 

乘法规则 P(A,B) = P(A|B)P(B) = P(B|A)P(A) = P(B,A)

A,B,C,D 4个变量联合发生的概率 :P(A,B,C,D) = P(A|B,C,D)P(B|C,D)P(C|D)P(D)

贝叶斯定理 P(h|D) = P(D|h)P(h)/P(D)

全概率法则:如果实践A1,A2,...,An互斥,且满足概率和为1,P(B)= P(B|A1)P(A1) + P(B|A2)P(A2) + ... + P(B|An)P(An)

贝叶斯网络(贝叶斯信念网):一种用来表示变量间连续概率的有向无环图模型,图中的节点表示变量,有向边表示变量间的依赖关系,依赖关系的强弱用标识在边旁边的条件概率来标识。表示一组变量的联合概率分布。

贝叶斯网络学习:贝叶斯网络结构学习(可通过领域专家根据经验直接给定;通过已知的训练数据学习得到)+贝叶斯网络参数学习(计算边旁边的概率值)

 

最大后验假设(MAP):学习器在候选假设集合H中寻找给定数据X时可能性最大的模型h,h被称为极大后验假设

h(map) = arg max P(h|X)= arg max P(X|h)P(h)/P(X) = argmax P(X|h)P(h)

极大似然假设:某些情况下,可假定H中每个模型有相同的先验概率,这样式子可以进一步简化,只需考虑P(X|h)最大的模型。

h(ML) = arg max P(X|h)

Brute-Force MAP学习算法:对于H中每个h,计算后验概率,输出最高后验概率的模型。算法需要较大的计算量。

 

概率学习方法利用关于不同假设的先验概率,估计后验值

贝叶斯方法确定的极大后验概率模型最可能称为最优模型

朴素贝叶斯分类器增加了独立性:特征在给定实例的分类时条件独立

EM算法提供了隐含变量模型的通用学习算法。算法开始于任意的初始假设,然后迭代地计算隐藏变量地期望值,再重新计算极大似然假设,这个过程收敛到一个局部极大似然假设和隐含变量的估计值,可以进行多模型的参数估计与求解。

机器学习(五):贝叶斯学习