cs224n---lecture8: RNN

附一个不错的资料：https://blog.****.net/apsvvfb/article/details/52848554
https://www.toutiao.com/i6491156699737489933/?group_id=6491156699737489933&group_flags=0

首先通过一个例子说一下语言模型：
cs224n---lecture8: RNN

RNN优点：

可以处理任意长度的输入
weights在所有时刻都是共享的
可以利用前面时刻的信息

RNN缺点：
1. 耗时，无法并行
2. 实际中，很难利用前面很远时刻的信息

cs224n---lecture8: RNN

RNN公式：
$h_{t} = t a n h (W_{h} h_{t - 1} + W_{e} e_{t} + b_{1})$
$o_{t} = s o f t m a x (U h_{t} + b_{2})$
其中， $W_{h}, W_{e}, b_{1}, U, b_{2}$ 只有一套。

RNN可能会遭遇梯度消失或梯度爆炸问题：
$\frac{\partial E}{\partial W} = \sum_{1 . . . T} \frac{\partial E_{t}}{\partial W}$
其中
$\frac{\partial E_{t}}{\partial W} = \sum_{1 . . . t} \frac{\partial E_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial h_{t}} \frac{\partial h_{t}}{\partial h_{k}} \frac{\partial h_{k}}{\partial W}$
其中
$\frac{\partial h_{t}}{\partial h_{k}}$ 可以很大或很小。注意到 $\frac{\partial h_{j}}{\partial h_{j - 1}}$ 是向量对向量求导，结果是一个Jacobian矩阵，矩阵元素是每个点的导数。
cs224n---lecture8: RNN

对于梯度爆炸，使用Gradient clipping。
cs224n---lecture8: RNN

对于梯度消失，可以选择好的初始化，使用Relu**函数。但是主要的方法还是使用GRU和LSTM。

相关推荐