二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)

考虑⼀个⼆元随机变量x ∈ {0, 1}。例如,x可能描述了扔硬币的结果,x = 1表示“正⾯”,x = 0表示反⾯,对某个特定的硬币(确定了参数μ)硬币正面朝上的概率为:
二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)
x的概率分布为伯努利分布
二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)
给定数据集规模N的条件下,x = 1的观测出现的数量m的概率分布。 这 被 称 为 ⼆ 项 分 布,写为:
二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)
 

假设我们有一个x的观测值的数据集D = {x1, . . . , xN }。假设每次观测都是独⽴地 从p(x | µ)中抽取的

极大似然估计

因此我们可以构造关于µ的似然函数如下:

二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)

对数似然函数为:

二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)

令ln p(D | µ)关于µ的导数等于零,我们就得到了最⼤似然的估计值:

二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)

使用Beta分布的贝叶斯估计

如果我们选择⼀个正⽐于µ(1 µ)的幂指数的先验概率分布,那么后验概率分布(正⽐于先验和似然函数的乘积)就会有着与先验分布相同的函数形式。这个性质叫共轭性。因此,我们把先验分布选择为Beta分布,定义为
二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)
Beta分布是归⼀化的,即
二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)
Beta分布的均值和⽅差为

二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)

参数ab经常被称为超参数(hyperparameter),因为它们控制了参数µ的概率分布。图2.2给出了不同的超参数值对应的Beta分布的图像。
二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)
µ的后验概率分布现在可以这样得到:把Beta先验(2.13)与⼆项似然函数(2.9)相乘,然后归⼀化。只保留依赖于µ的因⼦,我们看到后验概率分布的形式为

二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)

其中l = N - m,即对应于硬币“反⾯朝上”的样本数量。我们看到公式(2.17)关于µ的函数形式与先验分布相同,这反映出先验关于似然函数的共轭性质。实际上,后验概率分布仅仅是另⼀个Beta分布

二元变量问题的极大似然估计和贝叶斯估计(使用Beta分布)

我们看到,如果⼀个数据集⾥有m次观测为x = 1,有l次观测为x = 0,那么从先验概率到后验概率,a的值变⼤了mb的值变⼤了l。这让我们可以简单地把先验概率中的超参数ab分别看成x = 1x = 0的有效观测数
 
先验概率使用beta分布的贝叶斯估计算求解参数μ:
选定超参数a和b(实验中通过验证集选择合适的超参数组合),然后将后验概率分布(即式2.18)对μ求导,使得导数==0,便求出了使得后验概率最大的参数μ的值,就是是贝叶斯估计的结果。
 
如果我们接受了贝叶斯观点,那么学习过程中的顺序(sequential)⽅法可以⾃然⽽然地得出。它与先验和似然函数的选择⽆关,只取决于数据独⽴同分布的假设。顺序⽅法每次使⽤⼀个观测值,或者⼀⼩批观测值训练,在进行完一批训练之后,这一次得到的后验概率分布可以作为下一次的先验概率分布继续传递。

 

参考:《模式识别与机器学习》