机器学习校招手册之深入理解 极大似然估计 和 贝叶斯最大后验

极大似然估计和贝叶斯最大后验是参数估计的两种最常用的手段

在说极大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)之前,不得不说对于概率看法不同的两大派别频率学派与贝叶斯派。他们看待世界的视角不同,导致他们对于产生数据的模型参数的理解也不同。
ESL 和 PRML 也是这两种学派的典型代表著作

极大似然估计
对于频率学派的人来说,他们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。

他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

机器学习校招手册之深入理解 极大似然估计 和 贝叶斯最大后验

贝叶斯最大后验::
假如这个参数有一个先验概率,那么参数该怎么估计呢?这就是MAP要考虑的问题。 最大后验估计(MAP-Maxaposterior)。MAP优化的是一个后验概率,即给定了观测值后使概率最大:
他们认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。

他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。
机器学习校招手册之深入理解 极大似然估计 和 贝叶斯最大后验

参考文献:
1. https://blog.****.net/u011508640/article/details/72815981
2. http://www.cnblogs.com/xueliangliu/archive/2012/08/02/2962161.html
3. https://blog.****.net/qq_23947237/article/details/78265026