贝叶斯是非常传统，理论简单，但是非常有效的一种机器学习方法。经过大量实验表明，贝叶斯方法是极具鲁棒性的。至今为止仍然有很多人在研究贝叶斯的基础理论，而且发现许多算法都可以由贝叶斯推导而来，所以贝叶斯是具有极大的研究价值的理论。

这一章节我们就来扯一扯正态分布数据的贝叶斯决策理论，看看我们能搞点什么事情出来。自己多多推导，没准能发现新的大陆。许多优秀的算法，比如SVM等等往往就是这样诞生的。

这一节因为推导的东西比较多，可能很枯燥。所以先搞个大纲出来，看看我们接下来要搞点什么事情。

正态分布
- 单变量正态分布
- 多变量正态分布
- 正态分布的特点
贝叶斯分类器设计
- 理论推导
- 简化case1：最小欧式距离
- 简化case2：马氏距离
- General

主要就是这样一个构架了，谈正态分布的贝叶斯决策，显然我们得谈谈正态分布，然后由此出发，我们从最简单的case(增加各种假设条件，得到一个最简单的模型)，然后依次General。

闲话少说，开始我们的旅程吧。

一、正态分布

这里不是将概率论，详情请看我们写的数学系列教程。这里我们从需求出发，简单阐述单变量正态分布、多变量正态分布，最重要的是阐述一下正态分布的特点。

1.1 单变量正态分布

首先，搞个热身运动。下面是最简单的单变量正态分布。

其中：

Pdf（单变量概率密度函数）

p (x) = \frac{1}{\sqrt{2 π} σ} e^{{- \frac{1}{2} (\frac{x - μ}{σ})^{2}}}

Mean Vector (均值)

μ = E {x} = \int x p (x) d x

Variance（方差）

σ^{2} = E {(x - u)^{2}} = \int (x - μ)^{2} p (x) d x

数学表达式

p (x) N (μ, σ^{2})

1.2 多变量正态分布

多变量pdf表达

p (x) = \frac{1}{(2 π)^{1 / 2} | \sum |^{1 / 2}} \exp {- \frac{1}{2} (x - μ)^{T} \sum^{- 1} (x - μ)}, x \in R^{l}

Mean Vector（均值）

μ = E [x] = E [x_{1}, x_{2}, . . . . ., x_{l}]

Convariance matrix (协方差矩阵)

\begin{aligned} (1) & \sum & = E [(x - μ) (x - μ)^{T}] \end{aligned}

= [\begin{matrix} σ_{11}^{2} & σ_{12}^{2} & \dots & σ_{1 l}^{2} \\ σ_{21}^{2} & σ_{22}^{2} & \dots & σ_{2 l}^{2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ σ_{l 1}^{2} & σ_{l 2}^{2} & \dots & σ_{l l}^{2} \end{matrix}]

数学表达

p (x) N (μ, Σ)

1.3 正态分布的特点

$K$ 个参数(均值和方差)决定 $L - d i m$ 的正态分布

K = l + l (l + 1) / 2

超椭球面(super-ellipsoid)上点概率值相等

协方差矩阵的特征向量决定主轴，而且主轴的长度和协方差矩阵的特征向量是成比例的。
对于正态分布来说，不相关和独立是相等的
如果x是独立的，那么协方差矩阵是对角矩阵

二、贝叶斯分类器设计

这一小节的目的是：在输入 $x$ 是正态分布的前提下(假设输入的变量是服从正态分布的)，设计一个最小误差MPE贝叶斯分类器。

2.1 理论推导

这里，我们考虑每个类别数据都是服从正态分布的。同样的，我们判决函数用 $l n$ 函数，那么我们能得到如下的决策函数。

\begin{aligned} (2) & g_{i} (x) & = l n [p (x | w_{i}) p (w_{i})] \\ (3) & = l n p (x | w_{i}) + l n p (w_{i}) \end{aligned}

然后，因为 $x$ 是服从正态分布的，由此，我们将 $x$ 的函数带入到上式。得到如下式子。

\begin{aligned} (1) & g_{i} (x) & = - \frac{1}{2} l n (2 π) - \frac{1}{2} l n | Σ_{i} | - \frac{1}{2} (x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i}) + l n p (w_{i}) \end{aligned}

根据决策面方程（第 $i$ 类和第 $j$ 类的分界面）：

g_{i j} (x) = g_{i} (x) - g_{j} (x) = 0

由此我们可以推导出决策面：

- \frac{1}{2} [(x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i}) - (x - μ_{j})^{T} Σ_{j}^{- 1} (x - μ_{j})] - \frac{1}{2} l n \frac{| Σ_{i} |}{Σ_{j}} + l n \frac{p (w_{i})}{p (w_{j})} = 0

显然，该方程是一个二次曲面，如下图所示。

2.2 简化case1：最小欧式距离

Step1：做个假设

我们发现这个方程其实还是很难的，而且虽然每个类别样本都是服从正态分布，但是正态分布也会因为协方差矩阵不同而千差万别（就像单变量正态分布，如果方差不一样，那么他们之间的胖瘦就不一样）。不仅如此，多变量正态分布还存在属性之间的关系等等。所以，这里为了进一步分析上面的方程，就像朴素贝叶斯一样，我们也可以做一些强的假设。假设条件如下：

我们假设协方差矩阵元素相等，而且是一个对角阵。即特征向量之间是相互独立的，方差相等
因为每个类别的协方差矩阵相等，我们可以忽略决策函数(公式(1))中的第1项和第2项，那么可以得到一个简化的判定函数如下。

\begin{matrix} (2) & \begin{aligned} (4) & g_{i} (x) & = - \frac{1}{2} (x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i}) + l n p (w_{i}) \\ (5) & = - \frac{1}{2} x^{T} Σ^{- 1} x + (Σ^{- 1} μ_{i})^{T} x - \frac{1}{2} μ_{i}^{T} Σ^{- 1} μ_{i} + l n p (w_{i}) \end{aligned} \end{matrix}

上式中的第1个二次项与类别无关，因此完全可以忽略。

经过上述简化过程之后，简化后的决策函数(公式2)可以接着改写为如下的式子。

\begin{aligned} (3) & g_{i} (x) = (Σ^{- 1} μ_{i})^{T} x - \frac{1}{2} {μ_{i}}^{T} Σ^{- 1} μ_{i} + l n p (w_{i}) \end{aligned}

简化后的决策函数(公式3)过于冗余，我们可以用一些变量来进行替换，做如下几个定义。

{\begin{matrix} w_{i} = Σ^{- 1} μ_{i} \\ w_{i 0} = \frac{1}{2} {μ_{i}}^{T} Σ^{- 1} μ_{i} + l n p (w_{i}) \end{matrix}

由此，我们可以将公式3改写成如下的式子。

\begin{matrix} (4) & g_{i} (x) = w_{i}^{T} x + w_{i 0} \end{matrix}

哇哦~~~~可以说是非常的爽了。数学讲究的简单就是美~！！！不着急。。。还没完呢，现在我们假设的是类别样本都是标准的、除了 $μ$ 不同的正态分布。最终是想知道和 $μ$ 之间有什么关系。所以。。。。接着来，我们要把 $μ$ 给牵出来。

Step2：牵出 $μ$

从上式可以看出，这个判决函数是一个线性函数，所以我们所要得到的决策面是一个超平面(Hyperplane)。

继续，将 $Σ = σ^{2} I$ 带入到公式4，由此我们能得到如下的式子。

\begin{matrix} (5) & g_{i} (x) = \frac{1}{σ^{2}} μ_{i}^{T} x + w_{i} 0 \end{matrix}

接着，同样的，我们做一些定义（定义有点多，有点绕，但，相信，结果会非常美好的！！）

{\begin{matrix} w = μ_{i} - μ_{j} \\ x_{0} = \frac{1}{2} (μ_{i} + μ_{j}) - σ^{2} l n (\frac{p (w_{i})}{p (w_{j})}) \frac{μ_{i} - μ_{j}}{| | μ_{i} - μ_{j} | |^{2}} \end{matrix}

我们将这个定义带入上述决策函数(公式5)中，并结合之前的决策面方程，得到如下的表达式。

\begin{matrix} (6) & \begin{aligned} (6) & g_{i j} (x) & = g_{i} (x) - g_{j} (x) \\ (7) & = w^{T} (x - x_{0}) \end{aligned} \end{matrix}

这个式子可以说是完美了~~~~

Step3: 中场分析

重新温习一下。。。我们得到了公式6，其中：

$w = μ_{i} - μ_{j}$
$x_{0}$ 只和 $μ_{i}, μ_{j}, p (w_{i}), p (w_{j})$ 有关，而这些全是定值，所以 $x_{0}$ 显然是定值。

所以这个式子是完美的。由这个式子，我们能轻而易举的得到如下的启示：

决策面是一个超平面(Hyperplane)，而且超平面显然是通过 $x_{0}$ 这个定点的，而且是垂直于 $w$

这样真的堪称完美了吧？怎么还是中场分析？别着急。。。

Step4: 再假设

由上式可以看出，虽然 $x_{0}$ 是一个定值，但是一大串，总感觉不舒服。搞个假设，再次弱化这个case。

假设：

如果这两个类别 $i$ 和 $j$ 出现的概率是一样，显然就是 $p (w_{i}) = p (w_{j})$

这样就好玩了，我们再写一下 $x_{0}$ 的表达式。

x_{0} = \frac{1}{2} (μ_{i} + μ_{j}) - σ^{2} l n (\frac{p (w_{i})}{p (w_{j})}) \frac{μ_{i} - μ_{j}}{| | μ_{i} - μ_{j} | |^{2}}

因为 $p (w_{i}) = p (w_{j})$ ，显然， $x_{0} = (μ_{i} = μ_{j}) / 2$ 。

我的天啊，，这是什么玩意。。看看我们的决策面：

\begin{aligned} (8) & w^{T} (x - x 0) = 0 \\ (9) & w h e r e, w = μ_{i} - μ_{j}, x_{0} = (μ_{i} + μ_{j}) / 2 \end{aligned}

我的天啊，这不是最小欧式距离分类器么？

怎么说呢？我们先将我们的前置、结果展现一下。我们是假设每个类别都是服从正态分布的，然后设计了一个MPE贝叶斯分类器。然后我们假设了类内的元素都是独立的，然后继续推导就得到了上述式子。整理这个过程表达式如下。

\begin{aligned} (10) & p (x_{i} | w_{i}) - N (μ_{i}, σ^{2}), Σ_{1} = Σ_{2} = σ^{2} I, p (w_{i}) = p (w_{j}) \\ (11) & w^{T} (x - x 0) = 0 ， w h e r e, w = μ_{i} - μ_{j}, x_{0} = (μ_{i} + μ_{j}) / 2 \end{aligned}

下面我们仔细分析一下这个结果。我们假设，有2个类别(M = 2)，为了方便展示，我们假设特征空间是2维的(l = 2)，那么我们能得到如下的图像。

如上图所示，同心圆可以表示两个类别。同心圆的中心点就是均值点。为什么是同心圆？显然因为我们的特征空间是2维，如果画出来，正态分布肯定是一座小山，朝xoy平面投影后就成了上述形式(这里还有假设元素相互独立，协方差矩阵元素是相等的，由此更上一层，变成等距同心圆了)，可以详细的看正态分布所简述的特点。由此，我们可以得到如下启示。

决策面是一条线(通过了x_0点)，而且垂直于两个类别均值点的连线，也就是我们之前所阐述的w
如果样本x落在了线的左侧，那么显然就是属于类别1。如果落在了线的右侧，显然就是类别2了。
在这样的case中，x_0显然是两个类别均值点连线线段的中点。

思考：
上述推导我们做了很多假设条件。现在我们回退一步，之前不是要类别出现的概率相等么？即 $p (w_{i}) = p (w_{j})$ 。现在我们假设他们不相等会怎么样？

读者可以按照上述推导过程，自己推导一遍，加深对该推导过程的理解。非常interesting。

当然，我们会告诉你结果的。。

如 上 图 所 示 ， 如 果 类 别 概 率 不 相 等 ， 那 么 决 策 面 将 在 两 类 别 均 值 连 线 上 移 动 。

2.3 简化case2：马氏距离推导

2.2小节中，case的假设非常强。现在我们逐步的弱化，假设条件如下。

协方差矩阵不是对角矩阵，但是每个类别的均方差是相等的。

\begin{aligned} (12) & p (x | w_{i}) - N (μ_{i}, σ^{2}) \\ (13) & Σ_{i} = Σ \\ (14) & p (w_{i}) \neq p (w_{j}), i, j = 1, 2, 3, \dots, M \end{aligned}

由此可见类别内样本形成的都是超椭球形

根据上述case1的推导，我们可以得到如下判决函数：

g_{i} (x) = - \frac{1}{2 σ^{2}} (x - μ_{i})^{T} Σ^{- 1} (x - μ_{i}) + l n p (w_{i})

不难发现，首项就是一个马氏距离公式。表示样本x到类别i均值点的马氏距离平方。如下式子就是马氏距离的平方。

d_{M}^{2} = (x - μ_{i})^{T} Σ^{- 1} (x - μ_{i})

经过上述推导，可以得到如下的表达式。

\begin{aligned} (15) & g_{i} (x) = g_{j} (x) \\ (16) & \Rightarrow w^{T} (x - x_{0}), w h e r e, w = Σ^{- 1} (μ_{i} - μ_{j}), \\ (17) & x_{0} = \frac{1}{2} (μ_{i} + μ_{j}) - \frac{l n (p (w_{i}) / p (w_{j}))}{(μ_{i} - μ_{j})^{T} Σ^{- 1} (μ_{i} - μ_{j})} (μ_{i} - μ_{j}) \end{aligned}

画图表示如下，感兴趣的推荐自己动手推一遍。

2.4 General

以下是几个普通化的例子。

<个人网页blog已经上线，一大波干货即将来袭：https://faiculty.com/>

[贝叶斯七]之正态分布贝叶斯决策