贝叶斯正则化在神经网络拟合中的通俗理解

机器学习中防止过拟合的方法：3种

增加数据集

正则化<多用L2正则化>

Dropout<深度学习中常采用的一种正则化方法>

这里简单解释一下Dropout方法：Dropout可以简单地理解为在DNNs训练的过程中，以概率P丢弃部分神经元，即：使得被丢弃的神经元输出为0。使用时要注意Dropout率的选择（0.01，0.25，0.5）

正则化：通过修改损失函数防止过拟合
Dropout：通过修改神经网络本身来防止过拟合

************************ 分割线简单说下损失函数，需要了解更具体内容请参照百度 *****************************

“损失函数”又称为“代价函数”，其表征了将随机事件或随机变量的取值映射为非负实数，以表示该随机事件的“风险”或“损失”的函数
应用：
统计学&机器学习中：作为模型的参数估计；
宏观经济学中：用于风险管理和决策；
控制理论中：用于最优控制理论
应用中，通过最小化损失函数来求解和评估模型。

********************************** 损失函数结束的标志 **************************************************

贝叶斯正则化

贝叶斯分析（前方高能公式要出现了不过很简单）

$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
$P(A|B)$ ：后验概率 $P(\boldsymbol{x}|D,\alpha,\beta,M)$
$P(B|A)$ ：已知A发生的条件下，B发生的概率 $P(D|\boldsymbol{x},\beta,M)$
$P(A)$ ：先验概率 $P(\boldsymbol{x}|\alpha,M)$
$P(B)$ ：B的边缘概率<正则化中用作归一化因子> $P(D|\alpha,\beta,M)$

第一层贝叶斯框架

$P(\boldsymbol{x}|D,\alpha,\beta,M)=\frac{P(D|\boldsymbol{x},\beta,M)P(\boldsymbol{x}|\alpha,M)}{P(D|\alpha,\beta,M)}$
$\boldsymbol{x}$ ：包含网络所有权值和偏置值的向量
$D$ ：训练数据集
$\alpha$ 与 $\beta$ ：与密度函数相关的参数
$M$ ：代表了所选取的网络结构，即模型

$P(D|\boldsymbol{x},\beta,M)$ ：已知前一次训练所得的权值 $\boldsymbol{x}$ ，参数 $\beta$ ，网络模型 $M$ 的情况下，训练数据 $D$ 的概率密度。

$P(\boldsymbol{x}|\alpha,M)$ ：该项为模型中的先验项，即正则项，表征了权值 $\boldsymbol{x}$ 的概率密度。而前一次训练所获得的权值 $\boldsymbol{x}$ 是在已知网络模型 $M$ 和参数 $\alpha$ 的前提下获得的。
正则化表示对某一问题加以先验的限制或约束，以达到某种特定目的的一种手段或操作
这里的正则项可以是 $L1$ 范数或 $L2$ 范数
$L1$ 范数相当于加入了一个Laplacean先验项，可以保证模型的稀疏性，即某些参数等于0。
$L2$ 范数相当于加入了一个Gaussian先验项，可以保证模型的稠密性，即参数的值不会太大或者太小，比较集中。

$P(D|\alpha,\beta,M)$ ：训练数据 $D$ 的边缘概率，被称为证据，是个归一化因子。该项与 $\boldsymbol{x}$ 无关，故在最大化后验概率 $P(\boldsymbol{x}|D,\alpha,\beta,M)$ 时并不关心 $P(D|\alpha,\beta,M)$ ，但是 $P(D|\alpha,\beta,M)$ 在估计参数 $\alpha$ ， $\beta$ 时扮演了很重要的角色。

解释完每一项的意义后，接下来该求解了（下面的公式慢慢分析，不要心急）

$P(D|\boldsymbol{x},\beta,M)=\frac{1}{Z_{_D}(\beta)}exp(-\beta E_{_D})$
$\beta={1}/{(2\sigma_\epsilon^2)}$ ， $\sigma_\epsilon^2$ 是 $\epsilon_q$ 中每个元素的方差。

$Z_{_D}(\beta)=(2\pi\sigma_\epsilon^2 )^{N/2}=(\pi/\beta)^{N/2}$ ；其中 $N$ 的取值为 $Q\times S^M$ ， $Q$ ：训练数据集上的目标数， $S^M$ 中的每一个元素分别表示了 $F$ 对第 $m$ 层中净输入的第 $i$ 个元素变化的敏感度。具体内容将在文末标注。

$E_{_D}$ 是 $F(\boldsymbol{x})=E_{_D}=\sum\limits_{q=1}^Q(\boldsymbol{t}_q-\boldsymbol{a}_q)^T(\boldsymbol{t}_q-\boldsymbol{a}_q)$ 中所定义的网络在训练集上的误差平方和，其中 $\boldsymbol{t}_q$ 表示网络的目标输出，即真值； $\boldsymbol{a}_q$ 表示经过网络拟合的输出。

该项可称作似然函数，是一个关于网络权值 $\boldsymbol{x}$ 的函数，表述了当网络权值 $\boldsymbol{x}$ 为什么样的组合时，训练数据 $D$ 的概率密度 $P(D|\boldsymbol{x},\beta,M)$ 可以最大。
为了获得使得 $P(D|\boldsymbol{x},\beta,M)$ 最大的网络权值 $\boldsymbol{x}$ ，我们在这里提出最大似然法则。若这个似然函数为一个高斯函数时，当 $E_{_D}$ 取得最小值时， $P(D|\boldsymbol{x},\beta,M)$ 取得最大值。因此可以假设训练集 $D$ 含有高斯噪声，这样可以使用统计学的方法（极大似然估计）推出标准的误差平方和性能指标。

$P(\boldsymbol{x}|\alpha,M)=\frac{1}{Z_{_W}(\alpha)}exp(-\alpha E_{_W})$
$\alpha=(1)/(2\sigma_w^2)，\sigma_w^2$ 是每个权值的方差

$Z_{_W}(\alpha)=(2\pi\sigma_w^2 )^{n/2}=(\pi/\alpha)^{n/2}，n$ 是网络中权值和偏置值的数量。

$E_{_W}=\sum\limits_{i=1}^nx_i^2$ 是权值的平方和

该项称为先验密度，是一个正则项，体现了在收集数据前我们对网络权值 $\boldsymbol{x}$ 的了解。
贝叶斯正则化即要对该问题加以先验的限制或约束，以达到我们需要的目的的一种手段或操作。
这里的正则项可以是 $L1$ 范数或 $L2$ 范数：
$L1$ 范数相当于加入了一个 $Laplacean$ 先验项，可以保证模型的稀疏性，即某些参数等于0。
$L2$ 范数相当于加入了一个 $Gaussian$ 先验项，可以保证模型的稠密性，即参数的值不会太大或者太小，比较集中。

此处我们假设权值是以0为中心的较小值，因此选择了一个零均值的高斯先验密度。

$P(D|\alpha,\beta,M)$ 是一个归一化项，与 $\boldsymbol{x}$ 无关，用来估计参数 $\alpha，\beta$ 。
综上，可以将第一层贝叶斯框架写成如下的形式：
$P(\boldsymbol{x}|D,\alpha,\beta,M)=\frac{\frac{1}{Z_{_D}(\beta)}\frac{1}{Z_{_W}(\alpha)}exp(-(\beta E_{_D}+\alpha E_{_W}))}{归一化因子} =\frac{1}{Z_{_F}(\alpha,\beta)}exp(-F(\boldsymbol{x}))$
其中， $F(\boldsymbol{x})=\beta E_{_D}+\alpha E_{_W}，Z_{_F}(\alpha,\beta)=Z_{_D}(\beta)Z_{_W}(\alpha) 是关于\alpha 和\beta 的函数(与\boldsymbol x 无关)$

为求权值最可能的取值，我们需要最大化后验密度 $P(\boldsymbol{x}|D,\alpha,\beta,M)$ 。这相当于最小化正则性指标 $F(\boldsymbol{x})=\beta E_{_D}+\alpha E_{_W}$
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

估计参数 $\alpha，\beta$ 于是便引出了第二层贝叶斯框架

第二层贝叶斯框架

引言

第一层贝叶斯框架中给参数 $\alpha，\beta$ 提供了这样的物理意义：

参数 $\beta$ 与测量噪声 $\epsilon_q$ 的方差 $\sigma_\epsilon^2$ 成反比。
$\beta\Downarrow ，\sigma_\epsilon^2\Uparrow，\alpha/\beta\Uparrow，\boldsymbol{x}\Downarrow，$ 此时网络函数变得平滑。

参数 $\alpha$ 与网络权值 $\boldsymbol{x}$ 先验分布的方差 $\sigma_w^2$ 成反比。
$\alpha\Downarrow，\sigma_w^2\Uparrow，\alpha/\beta\Downarrow，\boldsymbol{x}\Uparrow，$ 此时网络函数可以具有更多的变化。贝叶斯正则化在神经网络拟合中的通俗理解

定义使 后验密度 最大化的权值为 $\boldsymbol{x}^{MP}$ ，即我们要寻找的最可能的取值
定义使 似然函数 最大化的权值为 $\boldsymbol{x}^{ML}$

正文：第二层贝叶斯框架（估计 $\alpha$ 和 $\beta$ ）

$P(\alpha,\beta|D,M)=\frac{P(D|\alpha,\beta,M)P(\alpha,\beta|M)}{P(D|M)}$

未完待续…