深度学习——循环神经网络RNN（一）_反向传播算法

RNN网络结构

Elman神经网络是最早的循环神经网络，由Elman于1990年提出，又称为SRN（Simple Recurrent Network, 简单循环网络）。RNN考虑了时序信息，当前时刻的输出不仅和当前时刻的输入有关，还和前面所有时刻的输入有关。

RNN的结构图（引用[2]中的图）如下：
深度学习——循环神经网络RNN（一）_反向传播算法

xt表示t时刻的输入向量；
ht表示t时刻的隐藏层向量：
隐层计算公式为
$h t = f (W h h h t - 1 + W x h x t + b h) (1)$
f是隐层的**函数。h0一般初始化为0。
我们可以认为ht包含了当前时刻及以前的所有记忆。虽然理论上这句话没问题，但是在实际中，由于梯度消失/爆炸问题的存在，ht只包含了有限步的信息，并不能捕获太久之前的信息。这被称为长时依赖问题。
yt表示t时刻的输出向量：
输出yt的计算公式为
$y t = g (W h y h t + b y) (2)$
g一般为softmax函数。

在训练RNN时，一个输入序列看做一个实例，其误差由各时刻误差之和组成：

J = \sum t = 1 T J t (3)

RNN的梯度计算比多层前馈神经网络要复杂一些，其反向传播算法有个特有的名字：随时间反向传播算法（Backpropagation Through Time，BPTT）[Werbos, 1990]。

这里会介绍两种计算RNN梯度的方法，并且仅以Whh的梯度为例进行说明。

深度学习——循环神经网络RNN（一）_反向传播算法

我们暂且把t步的Whh写成Whht，于是：

\partial J \partial W h h = \sum t = 1 T \partial J \partial W h h t = \sum t = 1 T \partial h t \partial W h h t \partial J \partial h t (4)

而

\partial J \partial h t = \partial J \partial y t \partial y t \partial h t + \partial J \partial h t + 1 \partial h t + 1 \partial h t = \partial J t \partial h t + W h h T d i a g (f' (h t)) \partial J \partial h t + 1 = \partial J t \partial h t + W h h T d i a g (f' (h t)) \partial J t + 1 \partial h t + 1 + (W h h T d i a g (f' (h t))) (W h h T d i a g (f' (h t + 1))) \partial J t + 2 \partial h t + 2 + \dots + \prod i = t T - 1 (W h h T d i a g (f' (h i))) \partial J T \partial h T = \sum k = t T \prod i = t k - 1 (W h h T d i a g (f' (h i))) \partial J k \partial h k (5)

把(5)代入(4)中，得到

\partial J \partial W h h = \sum t = 1 T \partial h t \partial W h h [\sum k = t T \prod i = t k - 1 (W h h T d i a g (f' (h i))) \partial J k \partial h k] (6)

深度学习——循环神经网络RNN（一）_反向传播算法

仍暂且把t步的Whh写成Whht，那么t时刻的误差会影响到{Whhk,k=1,2,...,t−1}，所以

\partial J \partial W h h = \sum t = 1 T \sum k = 1 t \partial J t \partial W h h k - 1 = \sum t = 1 T \sum k = 1 t \partial h k \partial W h h k - 1 \partial h t \partial h k \partial J t \partial h t = \sum t = 1 T \sum k = 1 t \partial h k \partial W h h k - 1 [\prod i = k t - 1 \partial h i + 1 \partial h i] \partial J t \partial h t = \sum t = 1 T \sum k = 1 t \partial h k \partial W h h k - 1 [\prod i = k t - 1 W h h i T d i a g (f' (h i))] \partial J t \partial h t = \sum t = 1 T \sum k = 1 t \partial h k \partial W h h [\prod i = k t - 1 W h h T d i a g (f' (h i))] \partial J t \partial h t (7)

可以证明公式(6)和(7)等价。

∂ht∂hk是矩阵的累乘，极容易出现趋于0的情况，这时当前时刻的误差传播不到比较久远的时刻，意味着RNN没有学到长时依赖关系。