经典摘录-贝叶斯公式
本博客已迁移至 SnailDove’s Blog, 查看本文,请点击此处
说明:全文摘自 Introduction to probability, 2nd Edition
本文讨论条件概率定律的应用,首先引入一个计算事件概率的定理。
全概率公式
设 是一组互不相容的事件,它形成样本空间的一个分割(每个试验结果必定使得其中一个事件发生!)。又假定对每个 。则对任何事件 ,下列公式成立
下图是全概率公式的图示和证明。直观上,将样本空间分割成若干事件 的并( 形成样本空间的一个分割)然后任意事件 的概率等于事件 在 发生的情况下的条件概率的加权平均,而权重刚好等于这些事件 的无条件概率。这条定理的一个主要应用是计算事件 的概率。直接计算事件 的概率有点难度,但是若条件概率 是已知的或是很容易推导计算时,全概率定理就成为了计算 的有力工具。应用这条定理的关键是找到合适的分割 ,而合适的分割又与问题的实际背景有关。
由于事件 形成一个样本空间的一个分割,事件 可以分解成不想交的 个事件的并,即:
利用可加定理,得到:
利用条件概率的定义,得到:
将 式子代入 式子中得到:
也可以用等价的序列树形图来说明全概率定理(如上右边图):叶子 的概率等于由叶子到根部上的概率的乘积 。而事件 由图上显示的3个叶子组成,将它们的概率相加就得到 。
全概率公式例子
例 1.13 你参加一个棋类比赛,其中 是一类棋手,你赢他们的概率为 ; 是二类棋手,你赢他们的概率是 ;剩下的是三类棋手,你赢得他们的概率是 。从他们中间随机地选一位棋手与你比赛,你胜算的概率有多大?
记 表示与你下棋的棋手的类别。依题意
记 为你赢得比赛的事件,那么得到:
那么利用全概率公式,你在不比赛中胜出的概率为:
推断与贝叶斯定理
全概率公式经常与著名的贝叶斯公式联系起来,贝叶斯公式将形如 的条件概率与形如 的条件概率联系起来。
贝叶斯公式
设 是一组互斥的事件,它形成样本空间的一个分割(每个试验结果必定使得其中一个事件发生)。又假定对每一个 ,则对于任何事件 ,只要它满足 ,下列公式成立:
为证明贝叶斯公式,只需注意到 与 是相等的,它们都等于 ,这样得到了第一个等式,至于第二个等式,只需对 利用全概率公式即可。
贝叶斯公式还可以用来进行因果推理。有许多”原因“可以造成某一”结果“。现在设我们观察到某一结果,希望推断造成这个结果出现的”原因“。现在设事件 是原因,而 代表由原因引起的结果。 表示在因果模型中由”原因“ 造成结果 的概率(见下图)。当观察到结果 的时候,希望反推结果 是由原因 造成的概率 。 为由于代表新近得到的信息 之后 出现的概率,称之为后验概率,而原来的 就称为先验概率。
贝叶斯推断的例子
医学
在某病人X光片中发现一个阴影,(用 表示,代表”结果“)。希望对造成这种结果的3个原因进行分析。这3个原因互斥,并且造成这个结果的原因一定是三者之一:原因1(事件 )是恶性肿瘤,原因2(事件 )是良性肿瘤,原因3(事件 )是肿瘤外的其他原因。假定已经知道 和 。现在已经发现了阴影(事件 发生),利用贝叶斯公式,这些原因的条件概率为:
在右图给出序列树形图,可用序列树形图给出条件概率计算的另外一种等价的解释。图中第一个深灰的叶子表示恶性肿瘤并出现阴影,其概率为 ,且所有深灰的叶子表示片子中出现阴影,其概率为 ,而由恶性肿瘤造成阴影的条件概率 是两个概率相除的结果。
比赛
继续使用例 1.13 你参加一个棋类比赛,其中 是一类棋手,你赢他们的概率为 ; 是二类棋手,你赢他们的概率是 ;剩下的是三类棋手,你赢得他们的概率是 。现在假定你已经得胜,问你的对手为一类棋手的概率有多大?
用 表示你与 类棋手相遇的事件。由例中给出的条件知道:
记 表示你赢的比赛的事件,你胜出的概率为:
利用贝叶斯公式得:
假阳性之谜
设对于某种少见的疾病的检出率为 ;如果一个被检查的病人有某种疾病,其检查结果为阳性的概率为 ;如果该人没有这种疾病,其检查结果为阴性的概率是 。现在假定某一人群中患有这种病的概率为 ,并从这个总体中随机地抽取一个人进行检测,检查结果为阳性。现在问这个人患有这种病的概率有多大?
设 为这个人有这种疾病, 为经检验这个人为阳性。利用贝叶斯公式:
尽管检验方法非常精确,一个经检测为阳性的人仍然不大可能真正患有这种疾病(患有该疾病的概率小于 )。根据《经济学人》杂志 年 月 日的报道,在一家著名的大医院中 的受访者不知道这类问题的正确答案,而大部分人回答,这个经检测为阳性的人患病概率为 !
连续随机变量的贝叶斯公式
在许多情况下,我们会遇到一个没有观察到的对象。用随机变量 代表这种未观察到的量,设其概率密度函数是 。我们能够观察到的量是经过噪声干扰的量 , 的分布函数是条件分布函数,其条件概率密度函数为: 。当 的值被观察到以后,它包含 的多少信息呢?这类问题与离散随机变量的推断问题类似。现在唯一的不同之处在于处理的是连续随机变量。
上图是推断问题的框图,有一个未观察到的变量 ,其概率密度函数 是已知的,同时得到一个观察到的随机变量 ,其条件概率密度函数为 。给定 的观察值 ,推断问题变成条件概率密度函数 fX|Y(x|y) 的计算问题。
注意到:当观察到事件 Y=y 以后,所有的信息都包含在条件概率密度函数 fX|Y(x|y) 中,现在只需计算这个条件概率密度函数。利用公式 fXfY|X=fX,Y=fYfX|Y 可以得到:
fX|Y(x|y)=fX(x)fY|X(y|x)fY(y)
这个即所求的公式,与之等价的公式:
fX|Y(x|y)=fX(x)fY|X(y|x)∫+∞−∞fX(t)fY|X(y|t)dt
例子
通用照明公司生产一种灯泡,已知其使用寿命 Y 为指数随机变量,其概率密度函数为 λe−λy,y>0 ,按过往经验,在任意给定的一天参数 λ 实际上是一个随机变量,其概率密度函数为区间 [1,32] 上的均匀分布。现在随机地取已知灯泡进行试验,得到灯泡的寿命数据。得到数据以后,对于 λ 的分布有什么新的认识?
将 λ 看成一个随机变量 Λ ,作为对 λ 的初始认识,那么根据题意 Λ 的概率密度函数是:
fΛ(λ)=2,1≤λ≤32
当得到数据 y 以后,关于 Λ 的信息包含于条件概率密度函数 fΛ,y(λ|y) 中,利用连续贝叶斯公式得到:
fΛ|y(λ|y)=fΛ(λ)fY|Λ(y|λ)∫−∞+∞fΛ(t)fY|Λ(y|t)dt=2λe−λy∫3212te−tydt,1≤λ≤32
关于连续随机变量的推断
在许多实际问题中,未观察到的随机变量可能是连续的随机变量。例如,在通信问题中传输的信号是一个二进制的信号,经过传输以后,混入的噪声是正态随机变量,这样,观测到的随机变量就是连续的随机变量;或者在医疗诊断中,观察到的量也是连续的测量值,例如:体温或血液样本中的指标。这种情况下需要将贝叶斯公式作适当改变。
现在研究一种特殊情况,未观察到的是一个事件A 。不知道 A 是否发生了。事件 A 的概率 P(A) 是已知的。设 Y 是一个连续的随机变量,并且假定条件概率密度函数 fY|A(y) 和 fY|Ac(y) 是已知的。令人兴趣的是事件 A 的条件概率密度函数 P(A|Y=y) 。这个量代表得到的观察值 y 以后关于事件 A 的信息。
由于事件 Y=y 是一个零概率事件,转而去考虑事件 y≤Y≤y+δ ,其中 δ 是一个很小的正数,然后令 δ 趋于0 。利用贝叶斯公式,令 fY(y)>0 ,我们得到:
P(A|Y=y)≈P(A|y≤Y≤y+δ)=P(A)P(y≤Y≤y+δ|A)P(y≤Y≤y+δ)≈P(A)fY|A(y)δfY(y)δ=P(A)fY|A(y)fY(y)
利用全概率公式,可将上式的分母写成:
fY(y)=P(A)fY|A(y)+P(Ac)fY|Ac(y)
这样得到:
P(A|Y=y)=P(A)fY|A(y)P(A)fY|A(y)+P(Ac)fY|Ac(y)
现在令事件 A 具有形式 {N=n} ,其中 N 是一个离散的随机变量,代表未观察到的随机变量。记 pN 为 N 的分布函数。令 Y 为连续随机变量,对任意 N 的取值 n,Y 具有条件概率密度函数 fY|N(y|n) 。 这样上面的公式变成 :
P(N=n|Y=y)=pN(n)fY|N(y|n)fY(y)
利用下面的全概率公式:
fY(y)=∑ipN(i)fY|N(y|i)
得到:
P(N=n|Y=y)=pN(n)fY|N(y|n)∑ipN(i)fY|N(y|i)
例子-信号检测
设 S 是一个只取2个值的信号(signal)。记 P(S=1)=p 和 P(S=−1)=1−p 。在接收端,得到的信号为 Y=N+S ,其中 N 是一个正态分布的噪声(noise),期望为0,方差为1,并且与 S 相互独立。当观察到的信号为 y 的时候,S=1 的概率是多少?
对于给定的 S=s=1,Y 是一个正态随机变量,期望为 s=1 ,方差为 1 。应用刚才得到的公式:
P(S=1|Y=y)=pS(1)fY|S(y|1)fY(y)=p√2πe−(y−1)22p√2πe−(y−1)22+1−p√2πe−(y+1)22
将上式化简得:
P(S=1|Y=y)=peypey+(1−p)e−y
注意:当 y→−∞,P(S=1|Y=y)→0 ,当 y→∞,P(S=1|Y=y)→1 。 y 在实数轴上变化时, P(S=1|Y=y) 是 y 的严格上升函数,这符合直观的理解。
基于离散观察值的推断
在前文连续随机变量的贝叶斯公式中得到的:
P(A|Y=y)≈P(A|y≤Y≤y+δ)=P(A)P(y≤Y≤y+δ|A)P(y≤Y≤y+δ)≈P(A)fY|A(y)δfY(y)δ=P(A)fY|A(y)fY(y)
反解得到:
fY|A(y)=fY(y)P(A|Y=y)P(A)
根据归一性(∫+∞−∞fY|A(y)dy=1),那么得到一个等价的表达式:
fY|A(y)=fY(y)P(A|Y=y)∫+∞−∞fY(t)P(A|Y=t)dt
这个公式可以用于当事件 A 被观测到时候,对随机变量 Y 进行推断。对于事件 A 是 {N=n} 的形式,根据前文:
P(N=n|Y=y)=pN(n)fY|N(y|n)∑ipN(i)fY|N(y|i)
得到一个相似的公式对随机变量 Y 进行推断:
fY|N(y|n)=P(N=n|Y=y)∑ipN(i)fY|N(y|i)pN(n)
总结
令 Y 为连续随机变量。
-
若 X 为连续随机变量,则有:
fX|Y(x|y)fY(y)=fX(x)fY|X(y|x)
和
fX|Y(x|y)=fX(x)fY|X(y|x)fY(y)=fX(x)fY|X(y|x)∫+∞−∞fX(t)fY|X(y|t)dt -
若 N 为离散随机变量,则有:
fY(y)P(N=n|Y=y)=pN(n)fY|N(y|n)
得到贝叶斯公式为:
P(N=n|Y=y)=pN(n)fY|N(y|n)fY(y)=pN(n)fY|N(y|n)∑ipN(i)fY|N(y|i)
和
fY|N(y|n)=fY(y)P(N=n|Y=y)pN(n)=fY(y)P(N=n|Y=y)∫+∞−∞fY(t)P(N=n|Y=t)dt 对于事件 A ,关于 P(A|Y=y) 和 fY|A(y) 具有类似的贝叶斯公式。