学习：Attentionis all you need（2）

Attention是一种用于提升基于RNN（LSTM或GRU）的Encoder + Decoder模型的效果的的机制（Mechanism），一般称为Attention Mechanism。Attention Mechanism目前非常流行，广泛应用于机器翻译、语音识别、图像标注（Image Caption）等很多领域，之所以它这么受欢迎，是因为Attention给模型赋予了区分辨别的能力，例如，在机器翻译、语音识别应用中，为句子中的每个词赋予不同的权重，使神经网络模型的学习变得更加灵活（soft），同时Attention本身可以做为一种对齐关系，解释翻译输入/输出句子之间的对齐关系，解释模型到底学到了什么知识，为我们打开深度学习的黑箱，提供了一个窗口，如图1所示。
学习：Attentionis all you need（2）
图1 NLP中的attention可视化

又比如在图像标注应用中，可以解释图片不同的区域对于输出Text序列的影响程度。
学习：Attentionis all you need（2）
图2 图像标注中的attention可视化

通过上述Attention Mechanism在图像标注应用的case可以发现，Attention Mechanism与人类对外界事物的观察机制很类似，当人类观察外界事物的时候，一般不会把事物当成一个整体去看，往往倾向于根据需要选择性的去获取被观察事物的某些重要部分，比如我们看到一个人时，往往先Attention到这个人的脸，然后再把不同区域的信息组合起来，形成一个对被观察事物的整体印象。因此，Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重，抽取出更加关键及重要的信息，使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的开销，这也是Attention Mechanism应用如此广泛的原因。

有了这些背景知识的铺垫，接下来就一一介绍下Attention Mechanism其他细节，在接写来的内容里，我会主要介绍以下一些知识：

1 Attention Mechanism原理

1.1 Attention Mechanism主要需要解决的问题

1.2 Attention Mechanism原理

2. Attention Mechanism分类

基本attention结构

2.1 soft Attention 与Hard Attention

2.2 Global Attention 和 Local Attention

2.3 Self Attention

组合的attention结构

2.4 Hierarchical Attention

2.5 Attention in Attention

2.6 Multi-Step Attention

3. Attention的应用场景

3.1 机器翻译（Machine Translation）

3.2 图像标注（Image Captain）

3.3 关系抽取（EntailMent Extraction）

3.4 语音识别（Speech Recognition）

3.5 自动摘要生成（Text Summarization）

##############################分割线#################################

1 Attention Mechanism原理

1.1 Attention Mechanism主要需要解决的问题

《Sequence to Sequence Learning with Neural Networks》介绍了一种基于RNN的Seq2Seq模型，基于一个Encoder和一个Decoder来构建基于神经网络的End-to-End的机器翻译模型，其中，Encoder把输入X编码成一个固定长度的隐向量Z，Decoder基于隐向量Z解码出目标输出Y。这是一个非常经典的序列到序列的模型，但是却存在两个明显的问题：

把输入X的所有信息有压缩到一个固定长度的隐向量Z，忽略了输入输入X的长度，当输入句子长度很长，特别是比训练集中最初的句子长度还长时，模型的性能急剧下降。
把输入X编码成一个固定的长度，对于句子中每个词都赋予相同的权重，这样做是不合理的，比如，在机器翻译里，输入的句子与输出句子之间，往往是输入一个或几个词对应于输出的一个或几个词。因此，对输入的每个词赋予相同权重，这样做没有区分度，往往是模型性能下降。

同样的问题也存在于图像识别领域，卷积神经网络CNN对输入的图像每个区域做相同的处理，这样做没有区分度，特别是当处理的图像尺寸非常大时，问题更明显。因此，2015年，Dzmitry Bahdanau等人在《Neural machine translation by jointly learning to align and translate》提出了Attention Mechanism，用于对输入X的不同部分赋予不同的权重，进而实现软区分的目的。

1.2 Attention Mechanism原理

要介绍Attention Mechanism结构和原理，首先需要介绍下Seq2Seq模型的结构。基于RNN的Seq2Seq模型主要由两篇论文介绍，只是采用了不同的RNN模型。Ilya Sutskever等人与2014年在论文《Sequence to Sequence Learning with Neural Networks》中使用LSTM来搭建Seq2Seq模型。随后，2015年，Kyunghyun Cho等人在论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》提出了基于GRU的Seq2Seq模型。两篇文章所提出的Seq2Seq模型，想要解决的主要问题是，如何把机器翻译中，变长的输入X映射到一个变长输出Y的问题，其主要结构如图3所示。
学习：Attentionis all you need（2）
图3 传统的Seq2Seq结构

其中，Encoder把一个变长的输入序列 x1，x2，x3…xt编码成一个固定长度隐向量（背景向量，或** 上下文向量** context）c，c有两个作用：1、做为初始向量初始化Decoder的模型，做为decoder模型预测y1的初始向量。2、做为背景向量，指导y序列中每一个step的y的产出。Decoder主要基于背景向量c和上一步的输出 $y_{t-1}$ 解码得到该时刻t的输出yt，直到碰到结束标志（）为止。

如上文所述，传统的Seq2Seq模型对输入序列X缺乏区分度，因此，2015年，Kyunghyun Cho等人在论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》中，引入了Attention Mechanism来解决这个问题，他们提出的模型结构如图4所示。
学习：Attentionis all you need（2）
图4 Attention Mechanism模块图解

在该模型中，定义了一个条件概率：
学习：Attentionis all you need（2）
其中，si是decoder中RNN在在i时刻的隐状态，如图4中所示，其计算公式为：

这里的背景向量ci的计算方式，与传统的Seq2Seq模型直接累加的计算方式不一样，这里的ci是一个权重化（Weighted）之后的值，其表达式如公式5所示：
学习：Attentionis all you need（2）
其中，i表示encoder端的第i个词， $h_j$ 表示encoder端的第j和词的隐向量， $a_{ij}$ 表示encoder端的第j个词与decoder端的第i个词之间的权值，表示源端第j个词对目标端第i个词的影响程度， $a_{ij}$ 的计算公式如公式6所示：
学习：Attentionis all you need（2）
在公式6中， $a_{ij}$ 是一个softmax模型输出，概率值的和为1。 $e_{ij}$ 表示一个对齐模型，用于衡量encoder端的位置j个词，对于decoder端的位置i个词的对齐程度（影响程度），换句话说：decoder端生成位置i的词时，有多少程度受encoder端的位置j的词影响。对齐模型 $e_{ij}$ 的计算方式有很多种，不同的计算方式，代表不同的Attention模型，最简单且最常用的的对齐模型是dot product乘积矩阵，即把target端的输出隐状态 $h_t$ 与source端的输出隐状态进行矩阵乘。常见的对齐计算方式如下：
学习：Attentionis all you need（2）
其中,Score(ht,hs) = $a_{ij}$ 表示源端与目标单单词对齐程度。可见，常见的对齐关系计算方式有，点乘（Dot product），权值网络映射（General）和concat映射几种方式。

2. Attention Mechanism分类

2.1 soft Attention 和Hard Attention

Kelvin Xu等人与2015年发表论文《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》，在Image Caption中引入了Attention，当生成第i个关于图片内容描述的词时，用Attention来关联与i个词相关的图片的区域。Kelvin Xu等人在论文中使用了两种Attention Mechanism，即Soft Attention和Hard Attention。我们之前所描述的传统的Attention Mechanism就是Soft Attention。Soft Attention是参数化的（Parameterization），因此可导，可以被嵌入到模型中去，直接训练。梯度可以经过Attention Mechanism模块，反向传播到模型其他部分。

相反，Hard Attention是一个随机的过程。Hard Attention不会选择整个encoder的输出做为其输入，Hard Attention会依概率Si来采样输入端的隐状态一部分来进行计算，而不是整个encoder的隐状态。为了实现梯度的反向传播，需要采用蒙特卡洛采样的方法来估计模块的梯度。

两种Attention Mechanism都有各自的优势，但目前更多的研究和应用还是更倾向于使用Soft Attention，因为其可以直接求导，进行梯度反向传播。

2.2 Global Attention 和 Local Attention

Global Attention：传统的Attention model一样。所有的hidden state都被用于计算Context vector 的权重，即变长的对齐向量at，其长度等于encoder端输入句子的长度。结构如图5所示。

学习：Attentionis all you need（2）
图5 Global Attention模型示意图

在t时刻，首先基于decoder的隐状态 $h_t$ 和源端的隐状态 $h_s$ ，计算一个变长的隐对齐权值向量 $a_t$ ，其计算公式如下：
学习：Attentionis all you need（2）
其中，score是一个用于评价 $h_t$ 与 $h_s$ 之间关系的函数，即对齐函数，一般有三种计算方式，我们在上文中已经提到了。公式如下：

学习：Attentionis all you need（2）

1 Attention Mechanism原理

1.1 Attention Mechanism主要需要解决的问题

1.2 Attention Mechanism原理

2. Attention Mechanism分类

2.1 soft Attention 与Hard Attention

2.2 Global Attention 和 Local Attention

2.3 Self Attention

2.4 Hierarchical Attention

2.5 Attention in Attention

2.6 Multi-Step Attention

3. Attention的应用场景

3.1 机器翻译（Machine Translation）

3.2 图像标注（Image Captain）

3.3 关系抽取（EntailMent Extraction）

3.4 语音识别（Speech Recognition）

3.5 自动摘要生成（Text Summarization）

1 Attention Mechanism原理

1.1 Attention Mechanism主要需要解决的问题

1.2 Attention Mechanism原理

2. Attention Mechanism分类

2.1 soft Attention 和Hard Attention

2.2 Global Attention 和 Local Attention

相关推荐