贝叶斯估计
我们现在讨论的点估计问题,无论你用矩估计也好,用极大似然估计也好或其他方法也好,在我们心目中,未知参数简单地是一个未知数,在抽取样本之前,我们对没有任何了解,所有的信息全来自样本。
贝叶斯学派则不然,它的出发点是:在进行抽样之前,我们已对有一定的知识,叫做先验知识。这里“先验”的意思并非先验论,而只是表示这种知识是“在实验之前”就有了的,也有人把它叫做验前知识,即“在实验之前”的意思。
贝叶斯学派进一步要求:这种先验知识必须用的某种概率分布表达出来,这个概率分布就叫做的“先验分布”或“验前分布”。这个分布总结了我们在实验之前对未知参数的知识。
举一个例子,设某工厂每日生产一大批某种产品,我们想要估计当日的废品率。该厂以前已生产过很多批次产品,如果过去的检验有记录在,则它确实提供了关于废品率的一种有用信息,据此可以画出的密度曲线。
图中,表示的密度函数。图(a)表示一个较好的情况:在附近很大,而当增加时下降很快。这表示该厂以往的废品率通常都很低。图(b)则表示一个不大好的情况:比较大的废品率出现的比率相当高。容易理解:这种关于的历史知识(即先验知识),在当前估计废品率时应当适当地加以使用,而不应弃之不顾。这种思想与我们日常处事的习惯符合:当我们面临一个问题时,除了当前的情况外,往往还要注意以往的先例和经验。
那么问题就来了:如果这个工厂以往没有记录,或甚至是一个新开工的工厂,该怎么办?贝叶斯统计有一个基本要求:你必须设法去定出这样一个,甚至处于你自己的主管认识也可以,这是问题中一个必备的要素。正是在这一点上,贝叶斯统计遭到不少的反对和批评。
现在我们转到下一个问题:已定下了先验密度之后,怎样去得出参数的估计?
设总体样本有概率密度(或概率函数,若总体分布为离散的),从这个总体中抽样本,则这组样本的密度为。它可视为在给定值时,的密度。那么的联合概率密度为
由此,算出的边缘密度为
积分的范围,要看参数的范围而定。如上例中为废品率,则。若为指数分布中的参数,则,等等。再根据贝叶斯公式,得到:
按照贝叶斯学派的观点,这个条件密度代表了我们现在(即在取得样本后)对的知识,它综合了的先验信息(以反映)与由样本带来的信息。通常把上式称为的“后验(验后)密度”,因为它是在做了实验以后才取得的。
如果把上述的过程和贝叶斯公式相比,就可以理解:现在我们做的,可以说不过是把贝叶斯公式加以“连续化”而已。
问题 | 先验知识 | 当前知识 | 后验(现在)知识 | |
---|---|---|---|---|
贝叶斯公式 | 事件中哪一个发生了? | 事件A发生了 | ||
此处问题 | 样本 | 后验密度 |
贝叶斯学派下的一个重要观点是:在得出后验分布后,对参数的任何统计推断都只能基于这个后验分布。至于具体如何使用它,可以结合多种准则去进行,统计学家也有一定的*度。拿此处讨论的点估计问题来说,一个常用的方法是:取后验分布式均值作为的估计。
例子
做n次独立试验,每次观察某事件A是否发生,A在试验中发生的概率为p,要依据试验结果去估计p。
这个问题我们以往就是用“用频率估计概率”的方法去处理(这里也是它的矩估计与极大似然估计)的,这种方法不用p的先验知识。现在我们用贝叶斯统计的观点来处理这个问题。
引进,视第i次试验时A发生与否而定。则,因此,的概率密度为,取p的先验概率密度为,则p的后验密度为
此分布的均值为
就是在先验分布之下的贝叶斯估计。
如何选择?贝叶斯本人曾提出“同等无知”的原则,即事先认为p取内一切值都是有等同可能的,也就是说,取内的均匀分布作为的先验分布。这时。经过一些列推导,可以得出
这个估计与频率有些差别,当n很大时不显著,而在n很小时颇为显著。从一个角度看,当n相当小时,用贝叶斯估计式比用更合理。因为当n很小时,实验结果很可能出现或的情况。这时,依应该把p估计为0或者1,这就太极端了(我们不能仅根据在少数几个实验中A不出现或全出现,就判定它为不可能或必然)。按照上式,这两种情况下分别给出估计值和。这就留有一定的余地。
参考书目
《概率论与数理统计》——陈希孺