Sequence to Sequence Learning with Neural Networks

1.模型

论文学习笔记03

Details：

（1）条件概率： $p(y_1,...,y_{T'}|x_1,...,x_T)=\prod^{T'}_{t=1}p(y_t|v,y_1,...,y_{t-1})$
input sentence: $x_1,...,x_T$ —> $v$
目标：
计算 $\frac{1}{\mathcal{|S|}}\sum_{(T,S)\in\mathcal{S}}logp(T|S)$
$T$ ：target sentence
$S$ ：source sentence
$\mathcal{S}$ ：training set
生成翻译: $\widehat{T}=argmax_Tp(T|S)$
即找概率最大的。

2.模型优点，克服了什么局限

（1）DNNs适用于输入和输出的向量的维度已经固定的问题，但sequence2sequence的翻译，输入和输出的句子的长度是不一定的。论文提出的模型克服了这个局限性（EOS（end-of-sentence）：允许任意长度的句子）
（2）LSTM很适用于长句子，没有RNN的长期依赖问题。

发现：

将源句翻转时，LSTM效果更好（为什么？）
原因：短期依赖的引入
通常，将源句与目标句连接起来时，源句中每个单词离目标句中的对应单词比较远。

拓展：RNN的长期依赖问题

RNN是在有序的数据上进行学习，为了记住数据，RNN会产生对先前的记忆。
权重小于1：
论文学习笔记03
权重大于1：