一、基本概念

贝叶斯理论是机器学习中一个核心方法，它由英国数学家托马斯贝叶斯在1763年发表的一篇论文中首先提出这个定理。贝叶斯定理是用来度量不确定性事件的，比如今天下雨概率，是一种概率模型。

在介绍贝叶斯理论之前我们先看看统计模式识别（statistical pattern recognition）中的一些概率知识。假设有一组随机数据 $X = [x_{1}, x_{2}, x_{3}, . . . . . . x_{l}]^{T} \in R^{l}$ ，它们属于M个类别 $Ω = {w_{1}, w_{2}, w_{3}, . . . . . . . ., w_{m}}$ . 下面有三个比较常用的概念。

首先是类别 $w_{i}$ 出现的概率，我们称之为先验概率(priori probability)。 $p (w_{i}), i = 1, 2, 3, 4, . . . . . . M$
然后是某个样本属于类别 $w_{i}$ 的概率，称为后验概率(Posterior probability)： $p (w_{i} | x), i = 1, 2, 3 \dots \dots M$ .
最后是似然(Likelihood)： $p (x | w_{i}), i = 1, 2, 3 \dots \dots M$ .

贝叶斯定理就是一个条件概率，所谓“条件概率”，就是指在事件B发生的情况下，事件A发生的概率，用 $p (A | B) = \frac{p (A B)}{p (B)}$ 表示。

二、全概率公式

这部分内容主要是属于概率论中的内容，具体的例子，请看本站的基础数学部分。这里简单明了的直接阐述定理。

定理(来自浙大概率论第4版)：
设试验 $E$ 的样本空间为 $S$ ， $A$ 为 $E$ 的事件， $B_{1}, B_{2}, B_{3} . . . . . ., B_{n}$ 为 $S$ 的一个划分，且 $P (B_{i}) > 0 (i = 1, 2, 3, . . . . . ., n)$ ，则

P (A) = P (A | B_{1}) P (B_{1}) + P (A | B_{2}) P (B_{2}) + . . . . . . . . + P (A | B_{n}) P (B_{n})

上式就称为全概率公式。

物理意义：全概率公式是由条件概率公式 $p (A | B) = \frac{p (A B)}{p (B)}$ 推导而来，当 $P (B) > 0$ 的时候， $P (A B) = P (A | B) P (B)$ .

三、贝叶斯公式

定理(来源于浙大概率论第4版)：
设试验 $E$ 的样本空间为 $S$ . $A$ 为 $E$ 的事件， $B_{1}, B_{2}, B_{3} . . . . . ., B_{n}$ 为 $S$ 的一个划分，且 $P (A) > 0, P (B_{i}) > 0 (i = 1, 2, 3, . . . . . ., n)$ ，则

P (B_{i} | A) = \frac{P (A | B_{i}) P (B_{i})}{\sum_{j = 0}^{n} P (A | B_{j}) P (B_{j})}

证明：
由条件概率的定义及全概率公式既得：

\begin{aligned} (1) & P (B_{i} | A) & = \frac{P (B_{i} A)}{P (A)} \\ (2) & = \frac{P (A | B_{i}) P (B_{i})}{\sum_{j = 0}^{n} P (A | B_{j}) P (B_{j})} \end{aligned}

通常的，在进行分类判断的时候，我们将贝叶斯公式写成如下形式。

p (w_{i} | x) = \frac{p (x | w_{i}) p (w_{i})}{p (x)}

其中：

$w_{i}$ 表示第 $i$ 个类别， $w$ 就是总类别的一个划分
$x$ 表示一个样本

我们对上式两边取对数，得到如下形式。

l n p (w_{i} | x) = l n p (x | w_{i}) + l n p (w_{i}) - p (x)

例题（来自概率论浙大第4版）：
[贝叶斯一]之贝叶斯理论

三、参考文献

[1] 《概率论与数理统计(浙大第4版)》

其它平台只是信息转发(留言可能看不到)，欢迎同学们到个人blog交流：https://faiculty.com/

[贝叶斯一]之贝叶斯理论

一、基本概念

二、全概率公式

三、贝叶斯公式

三、参考文献

相关推荐