经典摘录-贝叶斯公式

本博客已迁移至 SnailDove’s Blog, 查看本文,请点击此处

说明:全文摘自 Introduction to probability, 2nd Edition

本文讨论条件概率定律的应用,首先引入一个计算事件概率的定理。

全概率公式

A1,A2,...,An 是一组互不相容的事件,它形成样本空间的一个分割(每个试验结果必定使得其中一个事件发生!)。又假定对每个 i,P(Ai)>0 。则对任何事件 B ,下列公式成立

P(B)=P(A1B)++P(AnB)=P(A1)P(B|A1)++P(B)P(B|An)

下图是全概率公式的图示和证明。直观上,将样本空间分割成若干事件 Ai 的并( A1,,An 形成样本空间的一个分割)然后任意事件 B 的概率等于事件 BAi 发生的情况下的条件概率的加权平均,而权重刚好等于这些事件 Ai 的无条件概率。这条定理的一个主要应用是计算事件 B 的概率。直接计算事件 B 的概率有点难度,但是若条件概率 P(B|Ai) 是已知的或是很容易推导计算时,全概率定理就成为了计算 P(B) 的有力工具。应用这条定理的关键是找到合适的分割 A1,,An ,而合适的分割又与问题的实际背景有关。

经典摘录-贝叶斯公式

由于事件 A1,A2,,An 形成一个样本空间的一个分割,事件 B 可以分解成不想交的 n 个事件的并,即:

B=(A!B)(AnB)(1)

利用可加定理,得到:

P(B)=P(A1B)++P(AnB)(2)

利用条件概率的定义,得到:

P(AiB)=P(Ai)P(B|Ai)(3)

(3) 式子代入 (2) 式子中得到:

P(B)=P(A1)P(B|A1)++P(An)P(B|An)

也可以用等价的序列树形图来说明全概率定理(如上右边图):叶子 AiB 的概率等于由叶子到根部上的概率的乘积 P(Ai)P(B|Ai) 。而事件 B 由图上显示的3个叶子组成,将它们的概率相加就得到 P(B)

全概率公式例子

例 1.13 你参加一个棋类比赛,其中 50% 是一类棋手,你赢他们的概率为 0.3%25% 是二类棋手,你赢他们的概率是 0.4 ;剩下的是三类棋手,你赢得他们的概率是 0.5 。从他们中间随机地选一位棋手与你比赛,你胜算的概率有多大?

Ai 表示与你下棋的棋手的类别。依题意

P(A1)=0.5,P(A2)=0.25,P(A3)=0.25

B 为你赢得比赛的事件,那么得到:

P(B|A1)=0.3,P(B|A2)=0.4,P(B|A3)=0.5

那么利用全概率公式,你在不比赛中胜出的概率为:
P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)=0.50.3+0.250.4+0.250.5=0.375

推断与贝叶斯定理

全概率公式经常与著名的贝叶斯公式联系起来,贝叶斯公式将形如 P(A|B) 的条件概率与形如 P(B|A) 的条件概率联系起来

贝叶斯公式

A1,A2,,An 是一组互斥的事件,它形成样本空间的一个分割(每个试验结果必定使得其中一个事件发生)。又假定对每一个 i,P(Ai)>0 ,则对于任何事件 B ,只要它满足 P(B)>0 ,下列公式成立:

P(Ai|B)=P(Ai)P(B|Ai)P(B)=P(Ai)P(B|Ai)P(A1)P(B|A1)++P(An)P(B|An)

为证明贝叶斯公式,只需注意到 P(Ai)P(B|Ai)P(B)P(Ai|B) 是相等的,它们都等于 P(AiB) ,这样得到了第一个等式,至于第二个等式,只需对 P(B) 利用全概率公式即可。

贝叶斯公式还可以用来进行因果推理。有许多”原因“可以造成某一”结果“。现在设我们观察到某一结果,希望推断造成这个结果出现的”原因“。现在设事件 A1,,An 是原因,而 B 代表由原因引起的结果。 P(B|Ai) 表示在因果模型中由”原因“ Ai 造成结果 B 的概率(见下图)。当观察到结果 B 的时候,希望反推结果 B 是由原因 Ai 造成的概率 P(Ai|B)P(Ai|B) 为由于代表新近得到的信息 B 之后 Ai 出现的概率,称之为后验概率,而原来的 P(Ai) 就称为先验概率

贝叶斯推断的例子

医学

在某病人X光片中发现一个阴影,(用 B 表示,代表”结果“)。希望对造成这种结果的3个原因进行分析。这3个原因互斥,并且造成这个结果的原因一定是三者之一:原因1(事件 A1)是恶性肿瘤,原因2(事件 A2)是良性肿瘤,原因3(事件 A3)是肿瘤外的其他原因。假定已经知道 P(Ai)P(B|Ai),i=1,2,3 。现在已经发现了阴影(事件 B 发生),利用贝叶斯公式,这些原因的条件概率为:

P(Ai|B)=P(Ai)P(B|Ai)P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3),i=1,2,3

在右图给出序列树形图,可用序列树形图给出条件概率计算的另外一种等价的解释。图中第一个深灰的叶子表示恶性肿瘤并出现阴影,其概率为 P(A1B) ,且所有深灰的叶子表示片子中出现阴影,其概率为 P(B) ,而由恶性肿瘤造成阴影的条件概率 P(A1|B) 是两个概率相除的结果。

比赛

继续使用例 1.13 你参加一个棋类比赛,其中 50% 是一类棋手,你赢他们的概率为 0.3%25% 是二类棋手,你赢他们的概率是 0.4 ;剩下的是三类棋手,你赢得他们的概率是 0.5 。现在假定你已经得胜,问你的对手为一类棋手的概率有多大?
Ai 表示你与 i 类棋手相遇的事件。由例中给出的条件知道:

P(A1)=0.5,P(A2)=0.25,P(A3)=0.25

B 表示你赢的比赛的事件,你胜出的概率为:
P(B|A1)=0.3,P(B|A2)=0.4,P(B|A3)=0.5

利用贝叶斯公式得:
P(A1|B)=P(A1)P(B|A1)P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)=0.50.30.50.3+0.250.4+0.250.5=0.4

假阳性之谜

设对于某种少见的疾病的检出率为 0.95 ;如果一个被检查的病人有某种疾病,其检查结果为阳性的概率为 0.95 ;如果该人没有这种疾病,其检查结果为阴性的概率是 0.95 。现在假定某一人群中患有这种病的概率为 0.001 ,并从这个总体中随机地抽取一个人进行检测,检查结果为阳性。现在问这个人患有这种病的概率有多大?

A 为这个人有这种疾病, B 为经检验这个人为阳性。利用贝叶斯公式:

P(A|B)=P(A)P(B|A)P(A)P(B|A)+P(Ac)P(B|Ac)=0.0010.950.0010.95+0.9990.05=0.0187

尽管检验方法非常精确,一个经检测为阳性的人仍然不大可能真正患有这种疾病(患有该疾病的概率小于 2% )。根据《经济学人》杂志 1999220 日的报道,在一家著名的大医院中 80% 的受访者不知道这类问题的正确答案,而大部分人回答,这个经检测为阳性的人患病概率为 0.95 !

连续随机变量的贝叶斯公式

在许多情况下,我们会遇到一个没有观察到的对象。用随机变量 X 代表这种未观察到的量,设其概率密度函数是 fX(x) 。我们能够观察到的量是经过噪声干扰的量 YY 的分布函数是条件分布函数,其条件概率密度函数为: fX|Y(y|x) 。当 Y 的值被观察到以后,它包含 X 的多少信息呢?这类问题与离散随机变量的推断问题类似。现在唯一的不同之处在于处理的是连续随机变量。

经典摘录-贝叶斯公式

上图是推断问题的框图,有一个未观察到的变量 X ,其概率密度函数 fX 是已知的,同时得到一个观察到的随机变量 Y ,其条件概率密度函数为 fY|X(y|x) 。给定 Y 的观察值 y ,推断问题变成条件概率密度函数 fX|Y(x|y)fX|Y(x|y) 的计算问题。

注意到:当观察到事件 Y=yY=y 以后,所有的信息都包含在条件概率密度函数 fX|Y(x|y)fX|Y(x|y) 中,现在只需计算这个条件概率密度函数。利用公式 fXfY|X=fX,Y=fYfX|YfXfY|X=fX,Y=fYfX|Y 可以得到:

fX|Y(x|y)=fX(x)fY|X(y|x)fY(y)

fX|Y(x|y)=fX(x)fY|X(y|x)fY(y)

这个即所求的公式,与之等价的公式:

fX|Y(x|y)=fX(x)fY|X(y|x)+fX(t)fY|X(y|t)dt

fX|Y(x|y)=fX(x)fY|X(y|x)+fX(t)fY|X(y|t)dt

例子

通用照明公司生产一种灯泡,已知其使用寿命 YY 为指数随机变量,其概率密度函数为 λeλy,y>0λeλy,y>0 ,按过往经验,在任意给定的一天参数 λ 实际上是一个随机变量,其概率密度函数为区间 [1,32] 上的均匀分布。现在随机地取已知灯泡进行试验,得到灯泡的寿命数据。得到数据以后,对于 λ 的分布有什么新的认识?

λ 看成一个随机变量 Λ ,作为对 λ 的初始认识,那么根据题意 Λ 的概率密度函数是:

fΛ(λ)=2,1λ32


当得到数据 y 以后,关于 Λ 的信息包含于条件概率密度函数 fΛ,y(λ|y) 中,利用连续贝叶斯公式得到:

fΛ|y(λ|y)=fΛ(λ)fY|Λ(y|λ)+fΛ(t)fY|Λ(y|t)dt=2λeλy3212tetydt1λ32

关于连续随机变量的推断

在许多实际问题中,未观察到的随机变量可能是连续的随机变量。例如,在通信问题中传输的信号是一个二进制的信号,经过传输以后,混入的噪声是正态随机变量,这样,观测到的随机变量就是连续的随机变量;或者在医疗诊断中,观察到的量也是连续的测量值,例如:体温或血液样本中的指标。这种情况下需要将贝叶斯公式作适当改变。

现在研究一种特殊情况,未观察到的是一个事件A 。不知道 A 是否发生了。事件 A 的概率 P(A) 是已知的。设 Y 是一个连续的随机变量,并且假定条件概率密度函数 fY|A(y)fY|Ac(y) 是已知的。令人兴趣的是事件 A 的条件概率密度函数 P(A|Y=y) 。这个量代表得到的观察值 y 以后关于事件 A 的信息。

由于事件 Y=y 是一个零概率事件,转而去考虑事件 yYy+δ ,其中 δ 是一个很小的正数,然后令 δ 趋于0 。利用贝叶斯公式,令 fY(y)>0 ,我们得到:
P(A|Y=y)P(A|yYy+δ)=P(A)P(yYy+δ|A)P(yYy+δ)P(A)fY|A(y)δfY(y)δ=P(A)fY|A(y)fY(y)


利用全概率公式,可将上式的分母写成:
fY(y)=P(A)fY|A(y)+P(Ac)fY|Ac(y)

这样得到:
P(A|Y=y)=P(A)fY|A(y)P(A)fY|A(y)+P(Ac)fY|Ac(y)

现在令事件 A 具有形式 {N=n} ,其中 N 是一个离散的随机变量,代表未观察到的随机变量。记 pNN 的分布函数。令 Y 为连续随机变量,对任意 N 的取值 nY 具有条件概率密度函数 fY|N(y|n) 。 这样上面的公式变成 :
P(N=n|Y=y)=pN(n)fY|N(y|n)fY(y)

利用下面的全概率公式:
fY(y)=ipN(i)fY|N(y|i)

得到:
P(N=n|Y=y)=pN(n)fY|N(y|n)ipN(i)fY|N(y|i)

例子-信号检测

S 是一个只取2个值的信号(signal)。记 P(S=1)=pP(S=1)=1p 。在接收端,得到的信号为 Y=N+S ,其中 N 是一个正态分布的噪声(noise),期望为0,方差为1,并且与 S 相互独立。当观察到的信号为 y 的时候,S=1 的概率是多少?

对于给定的 S=s=1,Y 是一个正态随机变量,期望为 s=1 ,方差为 1 。应用刚才得到的公式:
P(S=1|Y=y)=pS(1)fY|S(y|1)fY(y)=p2πe(y1)22p2πe(y1)22+1p2πe(y+1)22


将上式化简得:
P(S=1|Y=y)=peypey+(1p)ey

注意:当 y,P(S=1|Y=y)0 ,当 y,P(S=1|Y=y)1y 在实数轴上变化时, P(S=1|Y=y)y 的严格上升函数,这符合直观的理解。

基于离散观察值的推断

在前文连续随机变量的贝叶斯公式中得到的:
P(A|Y=y)P(A|yYy+δ)=P(A)P(yYy+δ|A)P(yYy+δ)P(A)fY|A(y)δfY(y)δ=P(A)fY|A(y)fY(y)


反解得到:
fY|A(y)=fY(y)P(A|Y=y)P(A)

根据归一性(+fY|A(y)dy=1),那么得到一个等价的表达式:
fY|A(y)=fY(y)P(A|Y=y)+fY(t)P(A|Y=t)dt

这个公式可以用于当事件 A 被观测到时候,对随机变量 Y 进行推断。对于事件 A{N=n} 的形式,根据前文:
P(N=n|Y=y)=pN(n)fY|N(y|n)ipN(i)fY|N(y|i)

得到一个相似的公式对随机变量 Y 进行推断:
fY|N(y|n)=P(N=n|Y=y)ipN(i)fY|N(y|i)pN(n)

总结

Y 为连续随机变量。

  1. X 为连续随机变量,则有:
    fX|Y(x|y)fY(y)=fX(x)fY|X(y|x)



    fX|Y(x|y)=fX(x)fY|X(y|x)fY(y)=fX(x)fY|X(y|x)+fX(t)fY|X(y|t)dt

  2. N 为离散随机变量,则有:
    fY(y)P(N=n|Y=y)=pN(n)fY|N(y|n)


    得到贝叶斯公式为:
    P(N=n|Y=y)=pN(n)fY|N(y|n)fY(y)=pN(n)fY|N(y|n)ipN(i)fY|N(y|i)


    fY|N(y|n)=fY(y)P(N=n|Y=y)pN(n)=fY(y)P(N=n|Y=y)+fY(t)P(N=n|Y=t)dt

  3. 对于事件 A ,关于 P(A|Y=y)fY|A(y) 具有类似的贝叶斯公式。