条件概率、联合概率和贝叶斯公式

一、概率:

概率的本质是寻找随机性背后的规律,通常用公式:

P(A)=随机事件A所包含的单位事件的数量/随机变量空间所包含所有单位事件的数量

任何一个随机时间,随机事件A都是随机事件总集合里的一个子集。

如下图集合O代表所有单位事件的数量f(O),A、B代表两个不同随机事件的单位事件数量f(A)、f(B),则:

P(A)=f(A)/f(O)

P(B)=f(B)/f(O)

条件概率、联合概率和贝叶斯公式

 

 

假设凤凰新闻网今天有100篇新闻,有50篇娱乐新闻,20篇体育新闻,30篇军事新闻,则今天军事新闻的概率是30/100=30%,体育新闻的概率则是20/100=20%。

 

二、条件概率:

条件概率是指限定在随机事件A的条件下,随机事件B发生的概率。假设随机事件A出现的次数为f(A),限定在A事件条件下同时出现事件B的次数为f(C),则条件概率为f(C)/f(A)。

用公式P(B|A)=f(A∩B)/f(A)表示

注:P(B|A)=f(A∩B)/f(A)=f(C)/f(A)=P(C)/P(A)

 

假如凤凰新闻今天有100篇新闻,国际新闻有50篇,科技新闻有30篇,国际新闻中有科技新闻10篇,则在国际新闻中出现科技新闻的概率是10/50=20%,在科技新闻中出现国际新闻的概率是10/30=33.33%。

 

三、联合概率:

在随机事件集合O中,我们现在有随机事件A,随机事件B,如果事件C需要随机事件A与随机事件B同时发生(C⊆A∩B),则随机事件C发生的概率叫联合概率。

用公式P(B,A)= f(A∩B)/f(O)=P(C)表示

 

假如凤凰新闻今天有100篇新闻,国际新闻有50篇,科技新闻有30篇,同时是国际新闻、科技新闻类别的新闻有10篇,则同属国际新闻、科技新闻的新闻概率是10/100=10%。

 

四、如何把联合概率公式、条件概率公式变成贝叶斯公式

A和B一同发生的概率的联合概率:

P(B,A)

= f(A∩B)/f(O)

= f(A∩B)/f(A) * f(A)/f(O)

=P(B|A) * P(A)

注:可以理解成A和B一同发生的概率,就是A发生的概率,乘以在A条件下B发生的概率。

因此同理我们可以推导出公式:

P(A,B)= P(A|B) * P(B)

 

在数学上条件和结果是可以互换的,如在新闻分类中,我们可以说国际新闻中的科技新闻有X篇,也可以说科技新闻中有国际新闻X篇,只要调换一下方向就可以了,也就是:

P(B,A)= P(A,B)=P(C)

推导重要公式:P(B|A) * P(A) = P(A|B) * P(B)

 

在这个公式中,如果我们知道了其中三个因子,就能求出第四个。通常来讲,两个条件概率P(A和P(B)是容易求的。另外两个条件概率,一个是A条件下B的概率,一个是B条件下A的概率,常常一个比较容易得到,另一个比较难得到。所以,我们常常从容易得到的条件概率,推导出难得到的概率。这就是著名的贝叶斯公式:

P(A|B) = P(B|A) * P(A) / P(B)

 

五、贝叶斯公式有什么用?

5.1、继续用我们前面新闻的例子:

假如我们现在知道凤凰新闻今天的国际新闻占比是50%,科技新闻的占比是30%,且国际新闻中有20%是科技新闻,那么请问科技新闻中国际新闻的占比是多少?

我们用贝叶斯公式来推导:

P(国际新闻|科技新闻)

=P(科技新闻|国际新闻) * P(国际新闻) / P(科技新闻)

=20% * 50% / 30%

=33.33%

 

5.2、如何利用条件概率和贝叶斯公司实现机器翻译:

上面的例子感觉牛刀杀鸡,我们再来看看贝叶斯公式高大上的应用场景,如何利用条件概率和贝叶斯公司实现机器翻译。

我们假定有一个英语句子A,想要翻译成中文句子B,那么怎么翻译呢?李开复老师曾经介绍过微软在很长一段时间采用语言学专家的语言结构化思维来进行翻译,效果一直提不上去。如果我们把机器翻译换成概率问题,就会容易很多:

假设英语句子A的翻译结果有B1、B2、B3...BN,那我们只需要筛选一个翻译结果B,使得在已知英语句子A的条件下,B的概率P(B|A)相对其他翻译的条件概率最高就可以了。假如现在句子A有10种翻译方法,条件概率是0.2,0.6,0.01,0.05.....你很快会判断0.6的条件概率是最优的。

那么P(A|B)该怎么计算呢?我们无法通过直接统计获得,你要想直接计算这个概率,就需要恰巧遇到一个英文句子A,对应一个中文句子B,并且在文本中一同出现了很多次。

这时,我们就要派上贝叶斯公式了:

P(B|A) = P(A|B) * P(B) / P(A)

这个式子中有三个因子,第一个P(A|B)是给定中文的句子,对应的英文句子概率,这个可以通过中文到英文的语料库获得。第二个、第三个因子P(B)、P(A)可以通过语言模型获得。经过贝叶斯公式,我们将机器翻译变成了三个可以计算的概率,找出最大概率的翻译结果即可,这就是机器翻译的原理。

贝叶斯公式本质上是利用里数学在条件和结果上的互换特点,把复杂的问题变成了三个简单的问题。