文章目录

基本概念
神经网络模型

基本概念

1、神经元

BP神经网络

在这个模型中，神经元接收到来自n个其他神经元传递来的信号，这些输入信号通过带权的连接进行传递，神经元接收到总输入值，再与阈值进行比较，然后通过“**函数”处理以产生神经元输出。

2、**函数

为什么神经网络模型要使用**函数：

（1）引入非线性因素，解决非线性问题。

（2）可知输出范围，有限的输出范围使得网络对于一些比较大的输入也会比较稳定，这也是为什么早期的**函数都以此类函数为主，如Sigmoid、TanH。

**函数的性质要求：

（1）可微性：BP神经网络的优化方法是基于梯度的，所以必须要求**函数可微

（2）单调性：即导数符号不变。单调性使得在**函数处的梯度方向不会经常改变，从而让训练更容易收敛。

常见**函数如下：

（1）ReLu函数

该函数是工程上使用较多的**函数，其定义为：
$y=\left \{\begin{array} {lr} 0 \qquad(x\le 0)\\ x \qquad(x> 0) \end{array}\right.$
BP神经网络

（2）sigmoid函数
$f(x) = \frac{1}{1+e^{-x}}$
其图像如下：

BP神经网络

Sigmoid函数的输出映射在(0,1)之间，单调连续，输出范围有限，可以用作输出层。求导容易，求导结果为 $f(x)(1-f(x))$ ，其最大的局限性在于：当x达到一定值时，其导数值等于0，容易产生梯度消失，导致训练出现问题。

（3）tanh函数
$tanh(x) = \frac{1-e^{-2x}}{1+e^{-2x}}$
其图像如下：

BP神经网络

相比Sigmoid函数，其输出以0为中心而且收敛速度快。但他和sigmoid一样，也存在梯度消失问题。

神经网络模型

回顾感知机模型，感知机模型也可以理解为一个简单的神经网络模型，由两层神经元组成，如下图所示：
BP神经网络

需要注意的是，感知机只有输出层神经元进行**函数处理，即只拥有一层功能神经元，其学习能力非常有限。

在感知机模型中也提到过，感知机只能解决简单的二分类问题，如：“与”，“非”，“或”；不能解决异或问题，为了解决非线性问题，需要考虑使用多层功能神经元。如下图所示：

那么如何训练得到这个神经网络的参数，我们使用误差逆传播（BP）算法进行学习，学习得到的神经网络称为BP神经网络。

给定训练集 $D=\{(x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m)\},x_i \in \mathbf R^d,y_i \in \mathbf R^l$ ，即输入数据有 $d$ 个属性，输出 $l$ 维实值向量。隐层神经元个数是 $q$ 。输出层第 $j$ 个神经元的阈值用 $\theta_j$ 表示，隐层第 $h$ 个神经元的阈值用 $\gamma_h$ 表示。**函数采用sigmoid函数。

对训练样本 $(x_k,y_k)$ ，假定神经网络的输出为 $\hat {\mathbf y} =(\hat y_1^k,\hat y_2^k,\ldots,\hat y_l^k)$ ，所以有：
$\hat y_j^k = f(\beta_j - \theta_j)$
则网络在 $(x_k,y_k)$ 上的均方误差为：
$E_k = \frac{1}{2}\sum_{j=1}^l(\hat y_j^k - y_j^k)^2$
我们的目标是最小化这个误差函数。

待求参数：

（1）输入层到隐藏层有 $d\times q$ 个参数。

（2）隐藏层到输出层有 $q\times l$ 个参数。

（3）隐层 $q$ 个神经元的阈值。

（4）输出层 $l$ 个神经元的阈值。

BP神经网络基于梯度下降策略，以目标的负梯度方向对参数进行调整。不断优化参数。

（1）求 $\triangle w_{hj}$

对误差函数 $E_k$ ，给定学习了 $\eta$ ，有：
$\triangle w_{hj} = -\eta \frac{\partial E_k}{\partial w_{hj}}$
根据链式求导法则：
$\frac{\partial E_k}{\partial w_{hj}} = \frac{\partial {E_k}}{\partial{\hat{y}_j^k}} \cdot \frac{\partial{\hat{y}_j^k}}{\partial{\beta_j}} \cdot \frac{\partial{\beta_j}}{\partial{w_{hj}}}$
由 $\beta_j=\sum_{h=1}^q w_{hj}b_h$ 得：
$\frac{\partial{\beta_j}}{\partial{w_{hj}}} = b_h$
sigmoid函数求导结果如下：
$f'(x) = f(x)(1-f(x))$

定义 $g_i$ ：
$\begin{aligned} g_i &= - \frac{\partial {E_k}}{\partial{\hat{y}_j^k}} \cdot \frac{\partial{\hat{y}_j^k}}{\partial{\beta_j}} \\ & = -(\hat y_j^k - y_j^k)f'(\beta_j - \theta_j) \\ & = -(\hat y_j^k - y_j^k)f(\beta_j - \theta_j)(1-f(\beta_j - \theta_j))\\ &=\hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k) \end{aligned}$
称 $g_j$ 为输出神经元得梯度

所以：
$\triangle w_{hj} = \eta g_j b_h$
（2）求 $\triangle \theta_j$
$\Delta \theta_j = -\eta \cfrac{\partial E_k}{\partial \theta_j}$

$\begin{aligned} \cfrac{\partial E_k}{\partial \theta_j} &= \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot\cfrac{\partial \hat{y}_j^k}{\partial \theta_j} \\ &= \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot\cfrac{\partial [f(\beta_j-\theta_j)]}{\partial \theta_j} \\ &=\cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot f^{\prime}(\beta_j-\theta_j) \times (-1) \\ &=\cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot f\left(\beta_{j}-\theta_{j}\right)\times\left[1-f\left(\beta_{j}-\theta_{j}\right)\right] \times (-1) \\ &=\cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \hat{y}_j^k\left(1-\hat{y}_j^k\right) \times (-1) \\ &=\cfrac{\partial\left[ \cfrac{1}{2} \sum\limits_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2}\right]}{\partial \hat{y}_{j}^{k}} \cdot \hat{y}_j^k\left(1-\hat{y}_j^k\right) \times (-1) \\ &=\cfrac{1}{2}\times 2(\hat{y}_j^k-y_j^k)\times 1 \cdot\hat{y}_j^k\left(1-\hat{y}_j^k\right) \times (-1) \\ &=(y_j^k-\hat{y}_j^k)\hat{y}_j^k\left(1-\hat{y}_j^k\right) \\ &= g_j \end{aligned}$ ∂θj∂Ek=∂y^jk∂Ek⋅∂θj∂y^jk=∂y^jk∂Ek⋅∂θj∂[f(βj−θj)]=∂y^jk∂Ek⋅f′(βj−θj)×(−1)=∂y^jk∂Ek⋅f(βj−θj)×[1−f(βj−θj)]×(−1)=∂y^jk∂Ek⋅y^jk(1−y^jk)×(−1)=∂y^jk∂[21j=1∑l(y^jk−yjk)2]⋅y^jk(1−y^jk)×(−1)=21×2(y^jk−yjk)×1⋅y^jk(1−y^jk)×(−1)=(yjk−y^jk)y^jk(1−y^jk)=gj

所以：
$\Delta \theta_j = -\eta g_j$
（3）求 $\Delta v_{ih}$

因为
$\Delta v_{ih} = -\eta \cfrac{\partial E_k}{\partial v_{ih}}$

所以：
$\begin{aligned} \cfrac{\partial E_k}{\partial v_{ih}} &= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot \cfrac{\partial b_h}{\partial \alpha_h} \cdot \cfrac{\partial \alpha_h}{\partial v_{ih}} \\&= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot \cfrac{\partial b_h}{\partial \alpha_h} \cdot x_i \\ &= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot f^{\prime}(\alpha_h-\gamma_h) \cdot x_i \\&= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot w_{hj} \cdot f^{\prime}(\alpha_h-\gamma_h) \cdot x_i \\&= \sum_{j=1}^{l} (-g_j) \cdot w_{hj} \cdot f^{\prime}(\alpha_h-\gamma_h) \cdot x_i \\&= -f^{\prime}(\alpha_h-\gamma_h) \cdot \sum_{j=1}^{l} g_j \cdot w_{hj} \cdot x_i\\&= -b_h(1-b_h) \cdot \sum_{j=1}^{l} g_j \cdot w_{hj} \cdot x_i \\&= -e_h \cdot x_i\end{aligned}$ ∂vih∂Ek=j=1∑l∂y^jk∂Ek⋅∂βj∂y^jk⋅∂bh∂βj⋅∂αh∂bh⋅∂vih∂αh=j=1∑l∂y^jk∂Ek⋅∂βj∂y^jk⋅∂bh∂βj⋅∂αh∂bh⋅xi=j=1∑l∂y^jk∂Ek⋅∂βj∂y^jk⋅∂bh∂βj⋅f′(αh−γh)⋅xi=j=1∑l∂y^jk∂Ek⋅∂βj∂y^jk⋅whj⋅f′(αh−γh)⋅xi=j=1∑l(−gj)⋅whj⋅f′(αh−γh)⋅xi=−f′(αh−γh)⋅j=1∑lgj⋅whj⋅xi=−bh(1−bh)⋅j=1∑lgj⋅whj⋅xi=−eh⋅xi
称 $e_h= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot \cfrac{\partial b_h}{\partial \alpha_h}$ 为隐层神经元得梯度项

所以：
$\Delta v_{ih} =-\eta \cfrac{\partial E_k}{\partial v_{ih}} =\eta e_h x_i$
（4）求 $\Delta \gamma_h$

因为：
$\Delta \gamma_h = -\eta \cfrac{\partial E_k}{\partial \gamma_h}$
所以：
$\begin{aligned} \cfrac{\partial E_k}{\partial \gamma_h} &= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot \cfrac{\partial b_h}{\partial \gamma_h} \\ &= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot f^{\prime}(\alpha_h-\gamma_h) \cdot (-1) \\ &= -\sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot w_{hj} \cdot f^{\prime}(\alpha_h-\gamma_h)\\ &= -\sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot w_{hj} \cdot b_h(1-b_h)\\ &= \sum_{j=1}^{l}g_j\cdot w_{hj} \cdot b_h(1-b_h)\\ &=e_h \end{aligned}$ ∂γh∂Ek=j=1∑l∂y^jk∂Ek⋅∂βj∂y^jk⋅∂bh∂βj⋅∂γh∂bh=j=1∑l∂y^jk∂Ek⋅∂βj∂y^jk⋅∂bh∂βj⋅f′(αh−γh)⋅(−1)=−j=1∑l∂y^jk∂Ek⋅∂βj∂y^jk⋅whj⋅f′(αh−γh)=−j=1∑l∂y^jk∂Ek⋅∂βj∂y^jk⋅whj⋅bh(1−bh)=j=1∑lgj⋅whj⋅bh(1−bh)=eh
所以：
$\Delta \gamma_h=-\eta\cfrac{\partial E_k}{\partial \gamma_h} = -\eta e_h$
注：学习了 $\eta \in (0,1)$ 控制每一轮迭代中得更新步长，太大容易震荡太小收敛速度很慢。

误差逆传播算法如下：

输入：训练集 $D=\{(\mathbf x_k,\mathbf y_k)\}_{k=1}^m$ ，学习率 $\eta$

输出：连接全与阈值确定的多层前馈神经网络。

过程：

在（0，1）范围内随机初始神经网络中得所有连接权和阈值

repeat:

for all $(\mathbf x_k,\mathbf y_k)$ do

根据当前参数计算当前得样本输出 $\hat {\mathbf y_k}$

计算输出神经元梯度项 $g_j$

计算隐层神经元得梯度项 $e_h$

根据求导的最终结果：
$\triangle w_{hj} = \eta g_j b_h \\ \Delta \theta_j = -\eta g_j \\ \Delta v_{ih} =\eta e_h x_i \\ \Delta \gamma_h = -\eta e_h$
更新权值 $w_{hj},v_{ih}$ 与阈值 $\theta_j,\gamma_h$

end for

util 达到条件

这个过程中，需要注意BP算法的目标是要最小化训练集D上的累计误差：
$E = \frac{1}{m} \sum_{k=1}^mE_k$
最小化并非累积误差为0,若累积误差为0，会导致过拟合现象；因此通常采用“正则化”的策略，即在误差目标函数中增加一项用于描述网络复杂度的部分，例如连接权与阈值的平方和；则误差目标函数可以改为:
$E = \lambda \frac{1}{m} \sum_{k=1}^mE_k + (1-\lambda) \sum_{i} w_i^2$
其中 $λ ∈(0,1)$ ，其作用是对经验误差与网络复杂度这两项进行折中。由上式可知，误差E是连接权和阀值的函数，此时，神经网络可以看做一个参数寻优的过程，即在参数空间中寻找一组最优的参数使得误差最小。

BP神经网络

文章目录

基本概念

神经网络模型

相关推荐