贝叶斯估计

我们现在讨论的点估计问题，无论你用矩估计也好，用极大似然估计也好或其他方法也好，在我们心目中，未知参数 $θ$ 简单地是一个未知数，在抽取样本之前，我们对 $θ$ 没有任何了解，所有的信息全来自样本。

贝叶斯学派则不然，它的出发点是：在进行抽样之前，我们已对 $θ$ 有一定的知识，叫做先验知识。这里“先验”的意思并非先验论，而只是表示这种知识是“在实验之前”就有了的，也有人把它叫做验前知识，即“在实验之前”的意思。

贝叶斯学派进一步要求：这种先验知识必须用 $θ$ 的某种概率分布表达出来，这个概率分布就叫做 $θ$ 的“先验分布”或“验前分布”。这个分布总结了我们在实验之前对未知参数 $θ$ 的知识。

举一个例子，设某工厂每日生产一大批某种产品，我们想要估计当日的废品率 $θ$ 。该厂以前已生产过很多批次产品，如果过去的检验有记录在，则它确实提供了关于废品率 $θ$ 的一种有用信息，据此可以画出 $θ$ 的密度曲线。

贝叶斯估计

图中， $h (θ)$ 表示 $θ$ 的密度函数 $(0 \leq θ \leq 1)$ 。图（a）表示一个较好的情况： $h (θ)$ 在 $θ = 0$ 附近很大，而当 $θ$ 增加时下降很快。这表示该厂以往的废品率通常都很低。图（b）则表示一个不大好的情况：比较大的废品率出现的比率相当高。容易理解：这种关于 $θ$ 的历史知识（即先验知识），在当前估计废品率 $θ$ 时应当适当地加以使用，而不应弃之不顾。这种思想与我们日常处事的习惯符合：当我们面临一个问题时，除了当前的情况外，往往还要注意以往的先例和经验。

那么问题就来了：如果这个工厂以往没有记录，或甚至是一个新开工的工厂，该怎么办？贝叶斯统计有一个基本要求：你必须设法去定出这样一个 $h (θ)$ ，甚至处于你自己的主管认识也可以，这是问题中一个必备的要素。正是在这一点上，贝叶斯统计遭到不少的反对和批评。

现在我们转到下一个问题：已定下了先验密度之后，怎样去得出参数 $θ$ 的估计？

设总体样本有概率密度 $f (X, θ)$ (或概率函数，若总体分布为离散的)，从这个总体中抽样本 $X_{1}, \dots, X_{n}$ ，则这组样本的密度为 $f (X_{1}, θ) \dots f (X_{n}, θ)$ 。它可视为在给定 $θ$ 值时， $(X_{1}, \dots, X_{n})$ 的密度。那么 $(θ, X_{1}, \dots, X_{n})$ 的联合概率密度为

h (θ) f (X_{1}, θ) \dots f (X_{n}, θ)

由此，算出

(X_{1}, \dots, X_{n})

的边缘密度为

p (X_{1}, \dots, X_{n}) = \int h (θ) f (X_{1}, θ) \dots f (X_{n}, θ) d θ

积分的范围，要看参数

θ

的范围而定。如上例中

θ

为废品率，则

0 \leq θ \leq 1

。若

θ

为指数分布中的参数

λ

，则

0 < θ < \infty

，等等。再根据贝叶斯公式，得到：

h (θ | X_{1}, \dots, X_{n}) = \frac{h (θ) f (X_{1}, θ) \dots f (X_{n}, θ)}{p (X_{1}, \dots, X_{n})}

按照贝叶斯学派的观点，这个条件密度代表了我们现在（即在取得样本

X_{1}, \dots, X_{n}

后）对

θ

的知识，它综合了

θ

的先验信息（以

h (θ)

反映）与由样本带来的信息。通常把上式称为

θ

的“后验（验后）密度”，因为它是在做了实验以后才取得的。

如果把上述的过程和贝叶斯公式相比，就可以理解：现在我们做的，可以说不过是把贝叶斯公式加以“连续化”而已。

	问题	先验知识	当前知识	后验（现在）知识
贝叶斯公式	事件 $B_{1}, \dots, B_{n}$ 中哪一个发生了？	$P (B_{1}), \dots, P (B_{n})$	事件A发生了	$P (B_{1} \| A), \dots, P (B_{n} \| A)$
此处问题	$θ = ?$	$h (θ)$	样本 $X_{1}, \dots, X_{n}$	后验密度

贝叶斯学派下的一个重要观点是：在得出后验分布后，对参数 $θ$ 的任何统计推断都只能基于这个后验分布。至于具体如何使用它，可以结合多种准则去进行，统计学家也有一定的*度。拿此处讨论的点估计问题来说，一个常用的方法是：取后验分布式均值作为 $θ$ 的估计。

例子

做n次独立试验，每次观察某事件A是否发生，A在试验中发生的概率为p，要依据试验结果去估计p。

这个问题我们以往就是用“用频率估计概率”的方法去处理（这里也是它的矩估计与极大似然估计）的，这种方法不用p的先验知识。现在我们用贝叶斯统计的观点来处理这个问题。

引进 $X_{i} = 1 或 0$ ，视第i次试验时A发生与否而定 $(i = 1, \dots, n)$ 。则 $P (X_{i} = 1) = p, P (X_{i} = 0) = 1 - p$ ，因此， $(X_{1}, \dots, X_{n})$ 的概率密度为 $p^{X} (1 - p)^{n - X}, X = \sum_{i = 1}^{n} X_{i}$ ，取p的先验概率密度为 $h (p)$ ,则p的后验密度为

h (p | X_{1}, \dots, X_{n}) = \frac{h (p) p^{X} (1 - p)^{n - X}}{\int_{0}^{1} h (p) p^{X} (1 - p)^{n - X} d p} (0 \leq p \leq 1)

此分布的均值为

\begin{aligned} (41) & \tilde{p} & = \tilde{p} (X_{1}, \dots, X_{n}) \\ (42) \\ (43) & = \int_{0}^{1} p h (p | X_{1}, \dots, X_{n}) d p \\ (44) \\ (45) & = \frac{\int_{0}^{1} h (p) p^{X + 1} (1 - p)^{n - X} d p}{\int_{0}^{1} h (p) p^{X} (1 - p)^{n - X} d p} \end{aligned}

\tilde{p}

就是

p

在先验分布

h (p)

之下的贝叶斯估计。

如何选择 $h (p)$ ？贝叶斯本人曾提出“同等无知”的原则，即事先认为p取 $[0, 1]$ 内一切值都是有等同可能的，也就是说，取 $[0, 1]$ 内的均匀分布 $R (0, 1)$ 作为 $p$ 的先验分布。这时 $h (p) = 1 (0 \leq p \leq 1)$ 。经过一些列推导，可以得出

\tilde{p} = (X + 1) / (n + 2)

这个估计与频率 $X / n$ 有些差别，当n很大时不显著，而在n很小时颇为显著。从一个角度看，当n相当小时，用贝叶斯估计式比用 $X / n$ 更合理。因为当n很小时，实验结果很可能出现 $X = 0$ 或 $X = n$ 的情况。这时，依 $X / n$ 应该把p估计为0或者1，这就太极端了（我们不能仅根据在少数几个实验中A不出现或全出现，就判定它为不可能或必然）。按照上式，这两种情况下分别给出估计值 $\frac{1}{n + 2}$ 和 $\frac{n + 1}{n + 2}$ 。这就留有一定的余地。

参考书目
《概率论与数理统计》——陈希孺

相关推荐