一、Encoder-Decoder框架

注意力机制的理解（借鉴）
如图是在文本处理领域的Encoder-Decoder框架。

Encoder：对输入句子进行编码，通过非线性比变换转化为中间语义表示C
注意力机制的理解（借鉴）
Decoder：根据中间语义C和之前的历史信息，生成输出语句

每个yi都是依次产生的。

二、Soft Attention模型

上图中展示的Encoder-Decoder框架是没有体现出"注意力模型"的，可以看作是注意力不集中的分心模型。
注意力机制的理解（借鉴）
从单词生成的过程中，可以发现无论生成哪个单词，都用到C，没有区别。而语义编码C是原句子经过编码产生的，也就是原句子中的任何词对生成的Yi的影响力都是相同的。因此没有体现出"注意力"。

而引入注意力模型，就是给原句子的词添加注意力分配概率。那么原先的中间语义编码C会被替换成根据当前生成单词而不断变化的Ci。
注意力机制的理解（借鉴）
目标句子单词的生成过程：

求C1、C2、C3的过程，是一个加权求和的过程。

L x L_x Lx是原句子长度， a i j {a_i}_j aij是目标句子输出第i个单词时原句子第j个单词的注意力分配系数（也就是权重随着输出单词而变化的）， h j h_j hj是原句子第j个单词的语义编码
注意力机制的理解（借鉴）

三、Self Attention模型

Soft Attention是目标句子和原句子之间的Attention机制，而Self Attention是原句子内部之间或目标句子内部之间的Attention机制。
注意力机制的理解（借鉴）
Q、K、V都是来自同一输入，先计算Q和K的点乘，再除以一个尺度标度√dk，其中dk是Q和K向量的维度；再利用softmax操作将结果归一化，再乘上V得到结果。

举例

要翻译一个词组Thinking Machines，其中Thinking的输入的embedding vector用 x 1 x_1 x1表示，Machines的embedding vector用 x 2 x_2 x2表示。
注意力机制的理解（借鉴）
当我们处理Thinking这个词时，我们需要计算句子中所有词与它的Attention Score，这就像将当前词作为搜索的query，去和句子中所有词（包含该词本身）的key去匹配，看看相关度有多高。
计算Thinking的attention score的时候我们需要计算 q 1 q_1 q1与 k 1 k_1 k1、 k 2 k_2 k2的点乘。然后进行尺度缩放和softmax归一化。
注意力机制的理解（借鉴）
显然，当前单词与其自身的attention score一般最大，其他单词根据与当前单词重要程度有相应的score。
最后用这些attention score与value vector相乘，得到加权的向量。

下面是矩阵形式：

这就得到了句子内部之间的注意力分配系数。

注意力机制的理解（借鉴）

一、Encoder-Decoder框架

二、Soft Attention模型

三、Self Attention模型

举例

相关推荐