论文学习笔记03

Sequence to Sequence Learning with Neural Networks

1.模型

论文学习笔记03
论文学习笔记03

Details:

(1)条件概率:p(y1,...,yTx1,...,xT)=t=1Tp(ytv,y1,...,yt1)p(y_1,...,y_{T'}|x_1,...,x_T)=\prod^{T'}_{t=1}p(y_t|v,y_1,...,y_{t-1})
input sentence:x1,...,xTx_1,...,x_T—>vv
目标:
计算1S(T,S)Slogp(TS)\frac{1}{\mathcal{|S|}}\sum_{(T,S)\in\mathcal{S}}logp(T|S)
TT:target sentence
SS:source sentence
S\mathcal{S}:training set
生成翻译:T^=argmaxTp(TS)\widehat{T}=argmax_Tp(T|S)
即找概率最大的。

2.模型优点,克服了什么局限

(1)DNNs适用于输入和输出的向量的维度已经固定的问题,但sequence2sequence的翻译,输入和输出的句子的长度是不一定的。论文提出的模型克服了这个局限性(EOS(end-of-sentence):允许任意长度的句子)
(2)LSTM很适用于长句子,没有RNN的长期依赖问题。

发现:

将源句翻转时,LSTM效果更好(为什么?)
原因:短期依赖的引入
通常,将源句与目标句连接起来时,源句中每个单词离目标句中的对应单词比较远。

拓展:RNN的长期依赖问题

RNN是在有序的数据上进行学习,为了记住数据,RNN会产生对先前的记忆。
权重小于1:
论文学习笔记03
权重大于1:
论文学习笔记03