BP算法

前情回顾

上回我们说到，单层的线性神经网络权值的迭代公式是：
$w:=w-\eta X^T(f(wX)-y)f'(wX)$
其中呢，这个 $(f(wX)-y)f'(wX)$ 我们称它为 $\delta$ ，于是
$w:=w-\eta X^T\delta$
不用必须是线性神经网络，其他**函数也适用于这个公式，只不过线性的话就可以把f’(wX)这一项去掉。

对于多层的神经网络来说，每一层的权值怎么更新呢？

下面以二层的网络为例给出推导。

基本推导

神经网络（三）—— BP算法基本推导

损失函数自然就是
$E=\frac12(O-Y)^2$
这个二层的网络是如何工作的？

我们把它看成两个单层的就好。

一开始我们初始化了两层的权值V和W。

假设我们的**函数是f(x).

中间层的输出就可以计算:
$M = f(VX)$
然后我们把 M作为下一层的输入，就可以得到预测值O：
$O=f(WM)$
接下来将损失函数对W求导我们就能得到W的迭代方程:
$W:=W-\eta M^T\delta_2$
其中的 $\delta_2$ 就是 $(O-Y)*f'(WM)$ ,也同样可以写成 $\frac{\partial E}{\partial (WM)}$

这样一来我们就更新了 $W$ ,记作 $W_2$ 。

通过迭代W之后，我们知道现在的 $W_2$ 可以使得f(WM)更加接近Y。

同样的想法我们要改变V使得f(VX)更加接近M的‘真实值’，从而使得 $f(W_2M_2)$ 更接近Y。

同理：
$V:=V-\eta X^T\delta_1$
$\delta_1$ 可以写成 $\frac{\partial E}{\partial (VX)}$ ，根据链式求导法则
$\delta_1=\frac{\partial E}{\partial (VX)}=\frac{\partial E}{\partial (WM)}\cdot\frac{\partial (WM)}{\partial M}\cdot\frac{\partial M}{\partial (VX)}\\=\delta_2\cdot W_2\cdot f'(VX)\\$
求出 $\delta_1$ 后，V权值也能更新了。

这个公式当然还能更加一般化：
$\delta_i=\delta_{i+1}\cdot W_{i+1}\cdot f'(W_iO_i)$

神经网络（三）—— BP算法基本推导

BP算法

前情回顾

基本推导

相关推荐