论文学习笔记03
Sequence to Sequence Learning with Neural Networks
1.模型
Details:
(1)条件概率:
input sentence:—>
目标:
计算
:target sentence
:source sentence
:training set
生成翻译:
即找概率最大的。
2.模型优点,克服了什么局限
(1)DNNs适用于输入和输出的向量的维度已经固定的问题,但sequence2sequence的翻译,输入和输出的句子的长度是不一定的。论文提出的模型克服了这个局限性(EOS(end-of-sentence):允许任意长度的句子)
(2)LSTM很适用于长句子,没有RNN的长期依赖问题。
发现:
将源句翻转时,LSTM效果更好(为什么?)
原因:短期依赖的引入
通常,将源句与目标句连接起来时,源句中每个单词离目标句中的对应单词比较远。
拓展:RNN的长期依赖问题
RNN是在有序的数据上进行学习,为了记住数据,RNN会产生对先前的记忆。
权重小于1:
权重大于1: