RNN

背景

RNN(循环神经网络) 相比其他类型的神经网络,rnn是由记忆的神经网络,会把之前的信息保存在网络中然后在之后的计算中反复使用。
为什么会有这样的网络出现呢?
在语言识别与自然语言处理中,输入的序列之间是有时间的联系的,或是说序列与序列之间是有联系的,比如文字处理中同一个词在不同的句子可能是不同的意思,这个时候就必须以这个词结合上下文关系来判别这个词的真正意思。比如一个语言识别的订票系统,输出出发地与目的地。比如有两句话“我从北京出发到深圳”,与“我从深圳出发到北京”,在dnn中两句话都有“北京”这个词汇,但是dnn无法存储上下文间的联系,所以两个句子都有北京,输入北京输出的结果也应该是一样的,但是这样就不符合实际的需求了,比如第一句中的北京是出发地,可以联系上一个字中的“从”得知是出发地,第二句可以联系上一个字的到“到”得知是目的地。然后一个句子的长短我们是无法预知的,在dnn中无法很好的设计网络模型。

  • 总结
  1. 是输入和输出数据在不同例子中可以有不同的长度
  2. 一个像这样单纯的神经网络结构,它并不共享从文本的不同位置上学到的特征。无法联系上下文。

网络结构

RNN
RNN
S1=gs(WSS0+WxX1+bs)(2.1)S_1=g_s(W_SS_0+W_xX_1+b_s) \tag{2.1}
gs()g_s()通常为tanh/Relu**函数,S0S_0通常为全0向量
O1=go(WOS1+bo)(2.2)O_1=g_o(W_OS_1+b_o) \tag{2.2}
go()g_o()取决于输出的y,如果是二分类问题的话就为sigmoid,如果为k分类的话,就选用softmax作为**函数。
St=gs(WSSt1+WxXt)(2.3)S_t=g_s(W_SS_t-1+W_xX_t)\tag{2.3}

Ot=go(WOSt+bo)(2.4) O_t=g_o(W_OS_t+b_o)\tag{2.4}

RNN

RNN的类型

RNN

  1. 简单神经网络模型
  2. 一对多:用在比如说情感问题分类,输入一个电影的评论最后输出电影是正面评价或是负面评价。
  3. 一对多:用在比如音乐生成,这种模型的特点是xt=St1x_t=S_{t-1},xtx_t为t时刻的输入,yt1y_{t-1}为t-1时刻的输出。
  4. 多对多:输入长度与输出长度相同(比如命名实体识别)。输入长度与输出长度不同(比如机器翻译):网络结构为编码器解码器两部分。

RNN bptt与梯度消失

参考:RNN梯度消失与爆炸的原因

参考资料

1)深度学习 李宏毅
2)深度学习 吴恩达