最大似然估计与贝叶斯参数估计

前言

上一篇讲到了贝叶斯决策理论，其与贝叶斯估计是两种不同的思想。前者是根据先验概率 $P (ω_{i})$ 和类条件概率密度 $p (x | ω_{i})$ 来设计最优分类器。然而在实际应用中，通常得不到有关问题的概率结构的全部知识。我们只能利用手头的训练样本来估计问题中所涉及的先验概率和条件密度函数，并把这些估计的结果当作实际的先验概率和条件密度函数，然后再设计分类器。估计先验概率通常没有太大的困难，最大的困难在于估计类条件概率密度。其中主要的问题有两个:（1）在很多情况下，已有的训练样本数总是显得太少。（2）当用于表示特征的向量x的维数较大时，就会产生严重的计算复杂度问题。但是，如果我们事先已经知道参数的个数，并且先验知识允许我们能够把条件概率密度进行参数化，那么问题的难度就可以显著的降低。例如，我们可以正确的假设 $p (x | ω_{i})$ 是一个多元正态分布，其均值为 $μ_{i}$ ,协方差矩阵为 $σ_{i}$ （这两个参数的具体的值是未知的）。这样，我们就把问题从估计完全未知的概率密度 $p (x | ω_{i})$ 转化为估计参数 $μ_{i}$ 和 $σ_{i}$ 。这种方法就称为参数估计。
2. 最大似然估计
最大似然估计把待估计的量看作是确定性的量，只是其取值未知。最佳估计就是使得产生已观测到的样本(即训练样本)的概率为最大的那个值。基本原理如下图所示：
最大似然估计与贝叶斯参数估计

贝叶斯估计
与最大似然估计不同，贝叶斯估计把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程，就是把先验概率密度转化为后验概率密度，这样就利用样本的信息修正了对参数的初始估计值。在贝叶斯估计中，一个典型的效果就是，每得到新的观测样本，都使得后验概率密度函数变得更加尖锐，使其在待估参数的真实值附近形成最大的尖峰，这个现象就称为”贝叶斯”学习过程。无论使用何种参数估计方法，在参数估计完成后，我们都使用后验概率作为分类准则。

另外这篇博客http://blog.****.net/u011508640/article/details/72815981#comments个人感觉讲的也很到位。

最大似然估计与贝叶斯参数估计

最大似然估计与贝叶斯参数估计

相关推荐