您的位置: 首页 > 文章 > 对seq2seq的粗浅认识

对seq2seq的粗浅认识

分类: 文章 • 2024-01-13 16:59:22

本文从三个方面进行展开：

第一部分，介绍seq2seq在整个RNN体系中的情况。

第二部分，介绍seq2seq结构的基本原理。

第三部分，介绍seq2seq的缺点，和由此引出的Attention机制。

第一部分：

RNNs：Recurrent neural network 翻译成循环神经网络

Bidirectional RNNs: 双向RNNs

Deep Bidirectional RNNs:深度双向RNNs

LSTM：Long short term memory

GRU：Gated Recurrent Unit

解释：

传统的神经网络很难解决基于先前事件推断后续事件的问题。

RNNs是包含循环的网络，允许信息的持久化，解决了以上问题。

对seq2seq的粗浅认识

裸RNNs无法利用当前词语的下文辅助分类决策，解决方法是使用一些更复杂的RNN变种，如Bidirectional RNNs，Deep Bidirectional RNNs，使每个时刻不但接受上个时刻的特征向量，还接受来自下层的特征表示。

RNNs存在的问题：在相关信息和当前预测位置之间的间隔相当长时，训练RNN变得相当困难。

LSTM，作为一种特殊的RNN，可以学习长期依赖信息，避免了RNNs存在的问题。

GRU是LSTM的简化版。

对seq2seq的粗浅认识

对seq2seq的粗浅认识

对seq2seq的粗浅认识

关于LSTM网络和GRU网络的详细信息

基于上面5种，建立模型，实现应用。

Seq2seq：Sequence to sequence

应用可以采用的结构有Encoder–Decoder 结构。用来处理输入的叫encoder，生成输出的叫decoder。而seq2seq就是一种输入和输出序列不等长的encoder-decoder结构，seq2seq任务的首选模型就是LSTM。这种结构可用于翻译或聊天对话场景，对输入的文本转换成另外一些列文本。如下图所示：

对seq2seq的粗浅认识

当然，seq2seq也不是完美的，距离decoder的第一个cell越近的输入单词，对decoder的影响越大。但这并不符合常理，这时就提出了attention机制，对于输出的每一个cell，都检测输入的sequence里每个单词的重要性。

Attention是基于seq2seq的改进模型再进行改进的机制。

NMT：Neural Machine Translation 神经翻译模型

用一个大型神经网络建模整个翻译过程的系统。抽象的架构就是一个encoder一个decoder。

上面介绍的几个概念，笔者尝试性画一个自底而上的图如下所示：

对seq2seq的粗浅认识

这些概念（或方法或模型或机制）一个个的提出，都是为了解决（优化）相应的问题，但这并不是说新的方法提出了，前者就被淘汰了，而是不同的事物的应用情景不同。不知道读者朋友们能不能体会我的感觉（我的说法也不尽全面）。

第二部分，介绍seq2seq

基本原理

对seq2seq的粗浅认识

基本模型

对seq2seq的粗浅认识

模型包括encoder和decoder两个部分。

将输入传到encoder部分，得到最后一个时间步长t的隐藏状态C。

Decoder的隐藏状态ht就由ht-1，yt-1和C三部分构成。

最后的输出yt从图中可知，由ht（前一时刻的隐藏层）,yt-1（前一个预测结果）,c（encoder最后一个隐藏层）得到。

基本模型还有一个复杂版，见下图所示

对seq2seq的粗浅认识

改进模型

对seq2seq的粗浅认识

可以很容易的看出，改进模型与第一个模型主要的区别在于输入到输出有一条完整的流，且decoder不是每个cell都需要encoder输出隐藏状态C。

Seq2seq模型的问题

只能用固定维度的最后一刻的encoder隐藏层来表示源语言Y，必须将此状态一直传递下去。可以想象，当需要预测的句子相当长时，效果就会相当差。

于是乎引入Attention机制，改善这个问题。

第三部分，介绍attention

对seq2seq的粗浅认识

Attention机制，相当于改变从encoder传入到decoder的隐藏状态C。原先的状态C仅仅由最后一个时间步长t的隐藏状态C来决定。加入attention机制的seq2seq模型的状态c由所有输入向量xi共同决定。

对seq2seq的粗浅认识

即，对于decoder的时间步长i的隐藏状态si，ci等于Tx个输入向量[1,Tx]的隐藏状态与其权重αij相乘得到。权重的意义在于说明：对于当前输出的词，每一个输入的词给予的注意力是不一样的。

笔者仅仅将理解的部分内容转述出来，而且忽略了排版，存在漏洞在所难免，敬请指正，另附参考的博客内容，便于综合理解。

参考内容：

https://www.jianshu.com/p/9dc9f41f0b29

https://baijiahao.baidu.com/s?id=1613717006522786574&wfr=spider&for=pc

https://www.jianshu.com/p/2f48a252ad80

https://blog.csdn.net/Irving_zhang/article/details/78889364

http://www.hankcs.com/nlp/cs224n-9-nmt-models-with-attention.html