机器学习中最大似然估计MLE和最大后验估计MAP


在机器学习算法中,最大似然和最大后验实在损失函数中很重要的一部分。

一、频率派与贝叶斯学派

对于概率看法不同有两大派别,分别是频率学派与贝叶斯学派。他们看待世界的视角不同,导致他们对于产生数据的模型参数的理解也不同。

  • 频率学派
    认为世界是确定的。在多次重复实验中事件趋于一个稳定的值p,那么这个值就是该事件的概率。他们认为模型参数是个定值,这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。
  • 贝叶斯派
    认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。

二、最大似然估计(MLE)

  1. 最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率即先验概率。
  2. 根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率,最大似然估计是频率学派模型参数估计的常用方法。
  3. 举例
    在这举个猜黑球的例子:假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 p 是多少?
    我们假设7次黑球,3次红球为事件 A ,一个理所当然的想法就是既然事件 A已经发生了,那么事件 A 发生的概率应该最大。所以既然事件 A 的结果已定, 我们就有理由相信这不是一个偶然发生的事件,这个已发生的事件肯定一定程度上反映了黑球在整体中的比例。所以我们要让模型产生这个整体事件的概率最大,我们把这十次抽取看成一个整体事件 A ,很明显事件 A 发生的概率是每个子事件概率之积。我们把 P(A) 看成一个关于 p 的函数,求 P(A) 取最大值时的 p ,这就是极大似然估计的思想。具体公式化描述为P(A)=p^7 *(1-p) ^3

接下来就是取对数转换为累加,然后通过求导令式子为0来求极值,求出p的结果。
机器学习中最大似然估计MLE和最大后验估计MAP

三、最大后验估计(MAP)

  1. 就是最大化在给定数据样本的情况下模型参数的后验概率
  2. 根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布。
  3. 举例
    抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率p。
    (利用极大似然估计可以得到 p= 10 / 10 = 1.0。)
    如果我们利用极大后验概率估计来看这件事,先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么P(p|X)是一个分布,最大值会介于0.5~1之间,而不是武断的给出p= 1。
    4.结论
    显然,随着数据量的增加,参数分布会更倾向于向数据靠拢,先验假设的影响会越来越小。

四、他们之间的联系

最大似然估计可以理解为当先验概率P(θ)为均匀分布时的极大后验估计。极大后验估计根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同是,最大后验估计融入了要估计量的先验分布在其中,可看做是规则化的最大似然估计。
注:最大后验估计可以看做贝叶斯估计的一种特定形式。
MAP函数的求解和MLE函数的求解方法相同,都是先取对数,然后通过微分求解。MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说。MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。