RNN
背景
RNN(循环神经网络) 相比其他类型的神经网络,rnn是由记忆的神经网络,会把之前的信息保存在网络中然后在之后的计算中反复使用。
为什么会有这样的网络出现呢?
在语言识别与自然语言处理中,输入的序列之间是有时间的联系的,或是说序列与序列之间是有联系的,比如文字处理中同一个词在不同的句子可能是不同的意思,这个时候就必须以这个词结合上下文关系来判别这个词的真正意思。比如一个语言识别的订票系统,输出出发地与目的地。比如有两句话“我从北京出发到深圳”,与“我从深圳出发到北京”,在dnn中两句话都有“北京”这个词汇,但是dnn无法存储上下文间的联系,所以两个句子都有北京,输入北京输出的结果也应该是一样的,但是这样就不符合实际的需求了,比如第一句中的北京是出发地,可以联系上一个字中的“从”得知是出发地,第二句可以联系上一个字的到“到”得知是目的地。然后一个句子的长短我们是无法预知的,在dnn中无法很好的设计网络模型。
- 总结
- 是输入和输出数据在不同例子中可以有不同的长度
- 一个像这样单纯的神经网络结构,它并不共享从文本的不同位置上学到的特征。无法联系上下文。
网络结构
通常为tanh/Relu**函数,通常为全0向量
取决于输出的y,如果是二分类问题的话就为sigmoid,如果为k分类的话,就选用softmax作为**函数。
RNN的类型
- 简单神经网络模型
- 一对多:用在比如说情感问题分类,输入一个电影的评论最后输出电影是正面评价或是负面评价。
- 一对多:用在比如音乐生成,这种模型的特点是,为t时刻的输入,为t-1时刻的输出。
- 多对多:输入长度与输出长度相同(比如命名实体识别)。输入长度与输出长度不同(比如机器翻译):网络结构为编码器解码器两部分。
RNN bptt与梯度消失
参考资料
1)深度学习 李宏毅
2)深度学习 吴恩达