1. 符号定义

本文以单隐藏层的神经网络结构，均方误差为损失函数为例来详细推导各个参数的梯度更新。
给定训练集 $D=\left\{\bm{(x_1, y_1), (x_2, y_2),...,(x_m, y_m)}\right\}, \bm{x}_i\in \Bbb R^d, \bm y_i \in \Bbb R^l$ , 即输入示例由 $d$ 个属性描述，输出 $l$ 维实值向量。为便于讨论图1给出了一个拥有 $d$ 个输入神经元、 $l$ 个输出神经元、 $q$ 个隐层神经元的多层前馈网络结构，其中输出层第 $j$ 个神经元的阀值用 $\theta_j$ 表示，隐层第 $h$ 个神经元的阔值用 $\gamma_h$ 表示。输入层第 $i$ 个神经元与隐居第 $h$ 个神经元之间的连接权为 $v_{ih}$ ，隐层第 $h$ 个神经元与输出层第 $j$ 个神经元之间的连接权为 $w_{hj}$ 。
记隐层第 $h$ 个神经元接收到的输入为 $\alpha_h= \sum_{i=1}^d v_{ih} x_i$ ，输出层第 $j$ 个神经元接收到的输入为 $\beta=\sum_{h=1}^q w_{hj} b_h$ ，其中 $b_h$ 为隐层第 $h$ 个神经元的输出。假设隐层和输出层神经元都使用 $Sigmoid$ 函数 $f(x)=\frac{1}{1+e^{-x}}$ 。
对训练例 $\bm{(x_k, y_k)}$ ，假定神经网络的输出为 $\bm{\hat y}_k=(\hat y_{1}^k, \hat y_{2}^k,...,\hat y_{l}^k)$ ，即
$\hat y_{j}^k=f(\beta_j-\theta_j) \tag{1}$
网络在 $\bm{(x_k, y_k)}$ 上的均分误差为
$E_k=\frac{1}{2} \sum_{j=1}^l {(\hat y_{j}^k-y_{j}^k) \tag{2}}^2$

图1 BP 络及算法中的交量符号
BP算法基于梯度下降（gradient descent）策略，以目标的负梯度方向对参数进行更新。任意参数 $v$ 的更新估计式为
$v \leftarrow v+ \Delta v$

2. 隐藏层到输出层的权重更新

本节对图1中的隐层到输出层的连接权重 $w_{hj}$ 的更新进行推导。
对公式(1)的误差 $E_k$ ，给定学习速率 $\eta$ ，有权重 $w_{hj}$ 的更新公式为
$\Delta w_{hj}=-\eta \frac{\partial E_k}{\partial w_{hj}} \tag{3}$
根据图1可知， $w_{hj}$ 先影响到第 $j$ 个输出层神经元的输入值 $\beta_j$ ，然后 $\beta_j$ 再影响到该神经元的输出值 $\hat y_{j}^k$ ，最后 $\hat y_{j}^k$ 影响到 $E_k$ ，因此 $E_k$ 对 $w_{hj}$ 的偏导数可改写为
$\frac {\partial E_k}{\partial w_{hj}}=\frac{\partial E_k}{\partial \hat y_{j}^k} \cdot \frac{\partial \hat y_{j}^k}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial w_{hj}} \tag{4}$
根据 $\beta_j$ 的定义，显然有
$\frac {\partial \beta_j}{\partial w_{hj}}=\frac{\partial}{w_{hj}} (\sum_{h=1}^q w_{hj} b_h)=b_h \tag{5}$
由于 $Sigmoid$ 函数有一个很好的性质：
$f^{\prime}(x)=f(x)(1-f(x)) \tag{6}$
因此根据公式(1)和(2)，有
$g_j = - \frac{\partial E_k}{\partial \hat y_j^k} \cdot \frac{\partial \hat y_j^k}{\partial \beta_j} \\ =-(\hat y_j^k-y_j^k) f^{\prime} (\beta_j-\theta_j)\\ =-(\hat y_j^k-y_j^k) \hat y_j^k (1-\hat y_j^k)\\ =\hat y_j^k (1-\hat y_j^k) (y_j^k-\hat y_j^k) \tag{7}$

将公式(5)和(7)带入公式(4)，再带入公式(3)，就得到了BP算法中关于权重 $w_{hj}$ 的更新公式
$\Delta w_{hj}=\eta g_j b_h \tag{8}$

3. 输出层神经元阈值更新

对于输出层第 $j$ 个神经元的阈值 $\theta_j$ ，它首先影响到该神经元的输出值 $\hat y_j^k$ ，再影响到 $E_k$ ，因此有
$\Delta \theta_j=-\eta \frac{\partial E_k}{\partial \theta_j}\\ =-\eta \frac{\partial E_k}{\partial \hat y_j^k} \cdot \frac{\partial \hat y_j^k}{\partial \theta_j}\\ =-\eta (\hat y_j^k-y_j^k) f^{\prime} (\beta_j-\theta_j)\\ =-\eta (\hat y_j^k - y_j^k) [-\hat y_j^k (1-\hat y_j^k)]\\ =-\eta[\hat y_j^k (1-\hat y_j^k) (y_j^k-\hat y_j^k) \\ =-\eta g_j \tag{9}$

4. 输入层到隐藏层的权重更新

对于输入层的第 $i$ 个神经元到隐藏层的第 $h$ 个神经元的权重值 $v_{ih}$ ，它首先影响到隐藏层第 $h$ 个神经元的输入值 $\alpha_h$ ，然后 $\alpha_h$ 再影响到第 $h$ 个神经元的输出值 $b_h$ ，最后 $b_h$ 再影响到 $E_k$ 。以下推导 $E_k$ 对 $v_{ih}$ 的偏导数：
$\frac {\partial E_k}{\partial v_{ih}} = \frac{\partial E_k}{\partial b_h} \cdot \frac{\partial b_h}{\partial \alpha_h} \cdot \frac{\partial \alpha_h}{\partial v_{ih}} \tag{10}$
首先考虑第三项：
$\frac {\partial \alpha_h}{\partial v_{ih}}=x_i \tag{11}$
其次考虑第一项和第二项的乘积，如公式(12)所示，先考虑第二项的导数结果：
$\frac{\partial E_k}{\partial b_h} \cdot \frac{\partial b_h}{\partial \alpha_h}\\ =\frac{\partial E_k}{\partial b_h} \cdot f^{\prime}(\alpha_h+\gamma_h)\\ = \frac{\partial E_k}{\partial b_h} \cdot b_h(1-b_h) \tag{12}$

下面考虑 $E_k$ 对 $b_h$ 的偏导数，据图1可知 $b_h$ 先影响到 $\beta_j$ ，然后 $\beta_j$ 影响到 $\hat y_j^k$ ：
$\frac {\partial E_k}{\partial b_h}=\sum_{j=1}^l \frac{\partial E_k}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial b_h}\\ =\sum_{j=1}^l (\frac{\partial E_k}{\partial \hat y_j^k} \cdot \frac{\partial \hat y_j^k}{\partial \beta_j} ) \cdot w_{hj} \\ =-\sum_{j=1}^l g_j w_{hj} \tag{13}$

将公式(13)带入(12)中有
$\frac{\partial E_k}{\partial b_h} \cdot \frac{\partial b_h}{\partial \alpha_h}= -b_h(1-b_h) \cdot \sum_{j=1}^l g_j w_{hj} \tag{14}$
令
$e_h=- \frac{\partial E_k}{\partial b_h} \cdot \frac{\partial b_h}{\partial \alpha_h}=b_h(1-b_h) \cdot \sum_{j=1}^l g_j w_{hj} \tag{15}$

将公式(15)和公式(11)带入公式(10)中有
$\frac {\partial E_k}{\partial v_{ih}} = e_h x_i \tag{16}$
进一步可得
$\Delta v_{ih}=\eta e_h x_i \tag{17}$

5. 隐藏层神经元阈值更新

对于隐藏层第 $h$ 个神经元的阈值 $\gamma_h$ , 它首先影响到
$\frac {\partial E_k}{\partial \gamma_h}=\frac {\partial E_k}{\partial b_h} \cdot \frac{\partial b_h}{\partial \gamma_h}\\ =\frac {\partial E_k}{\partial b_h} \cdot f^{\prime}(\alpha_h + \gamma_h)\\ =\frac {\partial E_k}{\partial b_h} \cdot b_h(1-b_h) \tag{18}$

将公式(13)带入(18)有
$\frac {\partial E_k}{\partial \gamma_h}=-b_h(1-b_h) \cdot \sum_{j=1}^l g_j w_{hj} = -e_h \tag{19}$
因此有
$\Delta \gamma_h=-\eta \frac {\partial E_k}{\partial \gamma_h}=\eta e_h \tag{20}$

本文是参考周志华《机器学习》5.3节BP神经网络内容，并进行了详细地推导。

BP神经网络推导过程

目录

1. 符号定义

2. 隐藏层到输出层的权重更新

3. 输出层神经元阈值更新

4. 输入层到隐藏层的权重更新

5. 隐藏层神经元阈值更新

BP神经网络推导过程

目录

1. 符号定义

2. 隐藏层到输出层的权重更新

3. 输出层神经元阈值更新

4. 输入层到隐藏层的权重更新

5. 隐藏层神经元阈值更新

相关推荐