背景

RNN(循环神经网络) 相比其他类型的神经网络，rnn是由记忆的神经网络，会把之前的信息保存在网络中然后在之后的计算中反复使用。
为什么会有这样的网络出现呢？
在语言识别与自然语言处理中，输入的序列之间是有时间的联系的，或是说序列与序列之间是有联系的，比如文字处理中同一个词在不同的句子可能是不同的意思，这个时候就必须以这个词结合上下文关系来判别这个词的真正意思。比如一个语言识别的订票系统，输出出发地与目的地。比如有两句话“我从北京出发到深圳”，与“我从深圳出发到北京”，在dnn中两句话都有“北京”这个词汇，但是dnn无法存储上下文间的联系，所以两个句子都有北京，输入北京输出的结果也应该是一样的，但是这样就不符合实际的需求了，比如第一句中的北京是出发地，可以联系上一个字中的“从”得知是出发地，第二句可以联系上一个字的到“到”得知是目的地。然后一个句子的长短我们是无法预知的，在dnn中无法很好的设计网络模型。

总结

是输入和输出数据在不同例子中可以有不同的长度
一个像这样单纯的神经网络结构，它并不共享从文本的不同位置上学到的特征。无法联系上下文。

网络结构

RNN
RNN
$S_1=g_s(W_SS_0+W_xX_1+b_s) \tag{2.1}$
$g_s()$ 通常为tanh/Relu**函数， $S_0$ 通常为全0向量
$O_1=g_o(W_OS_1+b_o) \tag{2.2}$
$g_o()$ 取决于输出的y，如果是二分类问题的话就为sigmoid，如果为k分类的话，就选用softmax作为**函数。
$S_t=g_s(W_SS_t-1+W_xX_t)\tag{2.3}$