贝叶斯正则化在神经网络拟合中的通俗理解

机器学习中防止过拟合的方法:3种

增加数据集
正则化<多用L2正则化>
Dropout<深度学习中常采用的一种正则化方法>

这里简单解释一下Dropout方法:Dropout可以简单地理解为在DNNs训练的过程中,以概率P丢弃部分神经元,即:使得被丢弃的神经元输出为0。使用时要注意Dropout率的选择(0.01,0.25,0.5)

正则化:通过修改损失函数防止过拟合
Dropout:通过修改神经网络本身来防止过拟合

************************ 分割线简单说下损失函数,需要了解更具体内容请参照百度 *****************************

“损失函数”又称为“代价函数”,其表征了将随机事件或随机变量的取值映射为非负实数,以表示该随机事件的“风险”或“损失”的函数
应用:
统计学&机器学习中:作为模型的参数估计;
宏观经济学中:用于风险管理和决策;
控制理论中:用于最优控制理论
应用中,通过 最小化损失函数 来求解和评估模型。

********************************** 损失函数结束的标志 **************************************************

贝叶斯正则化

贝叶斯分析(前方高能 公式要出现了 不过很简单)

P(AB)=P(BA)P(A)P(B)P(A|B)=\frac{P(B|A)P(A)}{P(B)}
P(AB)P(A|B):后验概率P(xD,α,β,M)P(\boldsymbol{x}|D,\alpha,\beta,M)
P(BA)P(B|A):已知A发生的条件下,B发生的概率P(Dx,β,M)P(D|\boldsymbol{x},\beta,M)
P(A)P(A):先验概率P(xα,M)P(\boldsymbol{x}|\alpha,M)
P(B)P(B):B的边缘概率<正则化中用作归一化因子>P(Dα,β,M)P(D|\alpha,\beta,M)

第一层贝叶斯框架

P(xD,α,β,M)=P(Dx,β,M)P(xα,M)P(Dα,β,M)P(\boldsymbol{x}|D,\alpha,\beta,M)=\frac{P(D|\boldsymbol{x},\beta,M)P(\boldsymbol{x}|\alpha,M)}{P(D|\alpha,\beta,M)}
x\boldsymbol{x}:包含网络所有权值偏置值的向量
DD训练数据集
α\alphaβ\beta:与密度函数相关的参数
MM:代表了所选取的 网络结构,即模型

P(Dx,β,M)P(D|\boldsymbol{x},\beta,M):已知前一次训练所得的权值x\boldsymbol{x},参数β\beta,网络模型MM的情况下,训练数据DD的概率密度

P(xα,M)P(\boldsymbol{x}|\alpha,M):该项为模型中的先验项,即正则项,表征了权值x\boldsymbol{x}的概率密度。而前一次训练所获得的权值x\boldsymbol{x}是在已知网络模型MM和参数α\alpha的前提下获得的。
正则化表示对某一问题加以先验的限制或约束,以达到某种特定目的的一种手段或操作
这里的正则项可以是L1L1范数L2L2范数
L1L1范数相当于加入了一个Laplacean先验项,可以保证模型的稀疏性,即某些参数等于0。
L2L2范数相当于加入了一个Gaussian先验项,可以保证模型的稠密性,即参数的值不会太大或者太小,比较集中。

P(Dα,β,M)P(D|\alpha,\beta,M):训练数据DD的边缘概率,被称为证据,是个归一化因子。该项与x\boldsymbol{x}无关,故在最大化后验概率P(xD,α,β,M)P(\boldsymbol{x}|D,\alpha,\beta,M)时并不关心P(Dα,β,M)P(D|\alpha,\beta,M),但是P(Dα,β,M)P(D|\alpha,\beta,M)估计参数α\alphaβ\beta时扮演了很重要的角色。



解释完每一项的意义后,接下来该求解了(下面的公式慢慢分析,不要心急)

P(Dx,β,M)=1ZD(β)exp(βED)P(D|\boldsymbol{x},\beta,M)=\frac{1}{Z_{_D}(\beta)}exp(-\beta E_{_D})
β=1/(2σϵ2)\beta={1}/{(2\sigma_\epsilon^2)}σϵ2\sigma_\epsilon^2ϵq\epsilon_q 中每个元素的方差。

ZD(β)=(2πσϵ2)N/2=(π/β)N/2Z_{_D}(\beta)=(2\pi\sigma_\epsilon^2 )^{N/2}=(\pi/\beta)^{N/2};其中NN的取值为Q×SMQ\times S^MQQ:训练数据集上的目标数,SMS^M中的每一个元素分别表示了FF对第mm 层中净输入的第 ii 个元素变化的敏感度。具体内容将在文末标注。

EDE_{_D}F(x)=ED=q=1Q(tqaq)T(tqaq)F(\boldsymbol{x})=E_{_D}=\sum\limits_{q=1}^Q(\boldsymbol{t}_q-\boldsymbol{a}_q)^T(\boldsymbol{t}_q-\boldsymbol{a}_q)中所定义的网络在训练集上的误差平方和,其中 tq\boldsymbol{t}_q 表示网络的目标输出,即真值;aq\boldsymbol{a}_q 表示经过网络拟合的输出。

该项可称作似然函数,是一个关于网络权值x\boldsymbol{x}的函数,表述了当网络权值x\boldsymbol{x}为什么样的组合时,训练数据DD的概率密度P(Dx,β,M)P(D|\boldsymbol{x},\beta,M)可以最大。
为了获得使得P(Dx,β,M)P(D|\boldsymbol{x},\beta,M)最大的网络权值x\boldsymbol{x},我们在这里提出最大似然法则。若这个似然函数为一个高斯函数时,当EDE_{_D}取得最小值时,P(Dx,β,M)P(D|\boldsymbol{x},\beta,M)取得最大值。因此可以假设训练集DD含有高斯噪声,这样可以使用统计学的方法(极大似然估计)推出标准的误差平方和性能指标。


P(xα,M)=1ZW(α)exp(αEW)P(\boldsymbol{x}|\alpha,M)=\frac{1}{Z_{_W}(\alpha)}exp(-\alpha E_{_W})
α=(1)/(2σw2)σw2\alpha=(1)/(2\sigma_w^2),\sigma_w^2是每个权值的方差

ZW(α)=(2πσw2)n/2=(π/α)n/2nZ_{_W}(\alpha)=(2\pi\sigma_w^2 )^{n/2}=(\pi/\alpha)^{n/2},n 是网络中权值和偏置值的数量。

EW=i=1nxi2E_{_W}=\sum\limits_{i=1}^nx_i^2 是权值的平方和

该项称为先验密度,是一个正则项,体现了在收集数据前我们对网络权值 x\boldsymbol{x} 的了解。
贝叶斯正则化即要对该问题加以先验的限制或约束,以达到我们需要的目的的一种手段或操作。
这里的正则项可以是L1L1范数L2L2范数
L1L1范数相当于加入了一个LaplaceanLaplacean先验项,可以保证模型的稀疏性,即某些参数等于0。
L2L2范数相当于加入了一个GaussianGaussian先验项,可以保证模型的稠密性,即参数的值不会太大或者太小,比较集中。

此处我们假设权值是以0为中心的较小值,因此选择了一个零均值的高斯先验密度


P(Dα,β,M)P(D|\alpha,\beta,M)是一个归一化项,与 x\boldsymbol{x} 无关,用来估计参数αβ\alpha,\beta
综上,可以将第一层贝叶斯框架写成如下的形式:
P(xD,α,β,M)=1ZD(β)1ZW(α)exp((βED+αEW))=1ZF(α,β)exp(F(x))P(\boldsymbol{x}|D,\alpha,\beta,M)=\frac{\frac{1}{Z_{_D}(\beta)}\frac{1}{Z_{_W}(\alpha)}exp(-(\beta E_{_D}+\alpha E_{_W}))}{归一化因子} =\frac{1}{Z_{_F}(\alpha,\beta)}exp(-F(\boldsymbol{x}))
其中,F(x)=βED+αEWZF(α,β)=ZD(β)ZW(α)αβ(x)F(\boldsymbol{x})=\beta E_{_D}+\alpha E_{_W},Z_{_F}(\alpha,\beta)=Z_{_D}(\beta)Z_{_W}(\alpha) 是关于\alpha 和\beta 的函数(与\boldsymbol x 无关)

为求权值最可能的取值,我们需要最大化后验密度P(xD,α,β,M)P(\boldsymbol{x}|D,\alpha,\beta,M)。这相当于最小化正则性指标F(x)=βED+αEWF(\boldsymbol{x})=\beta E_{_D}+\alpha E_{_W}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

估计参数αβ\alpha,\beta 于是便引出了第二层贝叶斯框架

第二层贝叶斯框架

引言

第一层贝叶斯框架中给参数αβ\alpha,\beta提供了这样的物理意义:

参数 β\beta 与测量噪声 ϵq\epsilon_q 的方差 σϵ2\sigma_\epsilon^2 成反比。
βσϵ2α/βx\beta\Downarrow ,\sigma_\epsilon^2\Uparrow,\alpha/\beta\Uparrow,\boldsymbol{x}\Downarrow,此时网络函数变得平滑。

参数 α\alpha 与网络权值x\boldsymbol{x}先验分布的方差 σw2\sigma_w^2 成反比。
ασw2α/βx\alpha\Downarrow,\sigma_w^2\Uparrow,\alpha/\beta\Downarrow,\boldsymbol{x}\Uparrow,此时网络函数可以具有更多的变化。贝叶斯正则化在神经网络拟合中的通俗理解

定义使 后验密度 最大化的权值为 xMP\boldsymbol{x}^{MP},即我们要寻找的最可能的取值
定义使 似然函数 最大化的权值为 xML\boldsymbol{x}^{ML}


正文:第二层贝叶斯框架(估计α\alphaβ\beta

P(α,βD,M)=P(Dα,β,M)P(α,βM)P(DM)P(\alpha,\beta|D,M)=\frac{P(D|\alpha,\beta,M)P(\alpha,\beta|M)}{P(D|M)}


未完待续…