贝叶斯估计

我们现在讨论的点估计问题,无论你用矩估计也好,用极大似然估计也好或其他方法也好,在我们心目中,未知参数θ简单地是一个未知数,在抽取样本之前,我们对θ没有任何了解,所有的信息全来自样本。

贝叶斯学派则不然,它的出发点是:在进行抽样之前,我们已对θ有一定的知识,叫做先验知识。这里“先验”的意思并非先验论,而只是表示这种知识是“在实验之前”就有了的,也有人把它叫做验前知识,即“在实验之前”的意思。

贝叶斯学派进一步要求:这种先验知识必须用θ的某种概率分布表达出来,这个概率分布就叫做θ的“先验分布”或“验前分布”。这个分布总结了我们在实验之前对未知参数θ的知识。

举一个例子,设某工厂每日生产一大批某种产品,我们想要估计当日的废品率θ。该厂以前已生产过很多批次产品,如果过去的检验有记录在,则它确实提供了关于废品率θ的一种有用信息,据此可以画出θ的密度曲线。

贝叶斯估计

图中,h(θ)表示θ的密度函数(0θ1)。图(a)表示一个较好的情况:h(θ)θ=0附近很大,而当θ增加时下降很快。这表示该厂以往的废品率通常都很低。图(b)则表示一个不大好的情况:比较大的废品率出现的比率相当高。容易理解:这种关于θ的历史知识(即先验知识),在当前估计废品率θ时应当适当地加以使用,而不应弃之不顾。这种思想与我们日常处事的习惯符合:当我们面临一个问题时,除了当前的情况外,往往还要注意以往的先例和经验。

那么问题就来了:如果这个工厂以往没有记录,或甚至是一个新开工的工厂,该怎么办?贝叶斯统计有一个基本要求:你必须设法去定出这样一个h(θ),甚至处于你自己的主管认识也可以,这是问题中一个必备的要素。正是在这一点上,贝叶斯统计遭到不少的反对和批评。

现在我们转到下一个问题:已定下了先验密度之后,怎样去得出参数θ的估计?

设总体样本有概率密度f(X,θ)(或概率函数,若总体分布为离散的),从这个总体中抽样本X1,,Xn,则这组样本的密度为f(X1,θ)f(Xn,θ)。它可视为在给定θ值时,(X1,,Xn)的密度。那么(θ,X1,,Xn)的联合概率密度为

h(θ)f(X1,θ)f(Xn,θ)

由此,算出(X1,,Xn)的边缘密度为
p(X1,,Xn)=h(θ)f(X1,θ)f(Xn,θ)dθ

积分的范围,要看参数θ的范围而定。如上例中θ为废品率,则0θ1。若θ为指数分布中的参数λ,则0<θ<,等等。再根据贝叶斯公式,得到:
h(θ|X1,,Xn)=h(θ)f(X1,θ)f(Xn,θ)p(X1,,Xn)

按照贝叶斯学派的观点,这个条件密度代表了我们现在(即在取得样本X1,,Xn后)对θ的知识,它综合了θ的先验信息(以h(θ)反映)与由样本带来的信息。通常把上式称为θ的“后验(验后)密度”,因为它是在做了实验以后才取得的。

如果把上述的过程和贝叶斯公式相比,就可以理解:现在我们做的,可以说不过是把贝叶斯公式加以“连续化”而已。

问题 先验知识 当前知识 后验(现在)知识
贝叶斯公式 事件B1,,Bn中哪一个发生了? P(B1),,P(Bn) 事件A发生了 P(B1|A),,P(Bn|A)
此处问题 θ=? h(θ) 样本X1,,Xn 后验密度

贝叶斯学派下的一个重要观点是:在得出后验分布后,对参数θ的任何统计推断都只能基于这个后验分布。至于具体如何使用它,可以结合多种准则去进行,统计学家也有一定的*度。拿此处讨论的点估计问题来说,一个常用的方法是:取后验分布式均值作为θ的估计

例子

做n次独立试验,每次观察某事件A是否发生,A在试验中发生的概率为p,要依据试验结果去估计p。

这个问题我们以往就是用“用频率估计概率”的方法去处理(这里也是它的矩估计与极大似然估计)的,这种方法不用p的先验知识。现在我们用贝叶斯统计的观点来处理这个问题。

引进Xi=10,视第i次试验时A发生与否而定(i=1,,n)。则P(Xi=1)=p,P(Xi=0)=1p,因此,(X1,,Xn)的概率密度为pX(1p)nX,X=i=1nXi,取p的先验概率密度为h(p),则p的后验密度为

h(p|X1,,Xn)=h(p)pX(1p)nX01h(p)pX(1p)nXdp(0p1)

此分布的均值为
(41)p~=p~(X1,,Xn)(42)(43)=01ph(p|X1,,Xn)dp(44)(45)=01h(p)pX+1(1p)nXdp01h(p)pX(1p)nXdp

p~就是p在先验分布h(p)之下的贝叶斯估计。

如何选择h(p)?贝叶斯本人曾提出“同等无知”的原则,即事先认为p取[0,1]内一切值都是有等同可能的,也就是说,取[0,1]内的均匀分布R(0,1)作为p的先验分布。这时h(p)=1(0p1)。经过一些列推导,可以得出

p~=(X+1)/(n+2)

这个估计与频率X/n有些差别,当n很大时不显著,而在n很小时颇为显著。从一个角度看,当n相当小时,用贝叶斯估计式比用X/n更合理。因为当n很小时,实验结果很可能出现X=0X=n的情况。这时,依X/n应该把p估计为0或者1,这就太极端了(我们不能仅根据在少数几个实验中A不出现或全出现,就判定它为不可能或必然)。按照上式,这两种情况下分别给出估计值1n+2n+1n+2。这就留有一定的余地。

参考书目
《概率论与数理统计》——陈希孺