注意力机制的理解(借鉴)
一、Encoder-Decoder框架
如图是在文本处理领域的Encoder-Decoder框架。
Encoder:对输入句子进行编码,通过非线性比变换转化为中间语义表示C
Decoder:根据中间语义C和之前的历史信息,生成输出语句
每个yi都是依次产生的。
二、Soft Attention模型
上图中展示的Encoder-Decoder框架是没有体现出"注意力模型"的,可以看作是注意力不集中的分心模型。
从单词生成的过程中,可以发现无论生成哪个单词,都用到C,没有区别。而语义编码C是原句子经过编码产生的,也就是原句子中的任何词对生成的Yi的影响力都是相同的。因此没有体现出"注意力"。
而引入注意力模型,就是给原句子的词添加注意力分配概率。那么原先的中间语义编码C会被替换成根据当前生成单词而不断变化的Ci。
目标句子单词的生成过程:
求C1、C2、C3的过程,是一个加权求和的过程。
L
x
L_x
Lx是原句子长度,
a
i
j
{a_i}_j
aij是目标句子输出第i个单词时原句子第j个单词的注意力分配系数(也就是权重随着输出单词而变化的),
h
j
h_j
hj是原句子第j个单词的语义编码
三、Self Attention模型
Soft Attention是目标句子和原句子之间的Attention机制,而Self Attention是原句子内部之间或目标句子内部之间的Attention机制。
Q、K、V都是来自同一输入,先计算Q和K的点乘,再除以一个尺度标度√dk, 其中dk是Q和K向量的维度;再利用softmax操作将结果归一化,再乘上V得到结果。
举例
要翻译一个词组Thinking Machines,其中Thinking的输入的embedding vector用
x
1
x_1
x1表示,Machines的embedding vector用
x
2
x_2
x2表示。
当我们处理Thinking这个词时,我们需要计算句子中所有词与它的Attention Score,这就像将当前词作为搜索的query,去和句子中所有词(包含该词本身)的key去匹配,看看相关度有多高。
计算Thinking的attention score的时候我们需要计算
q
1
q_1
q1与
k
1
k_1
k1、
k
2
k_2
k2的点乘。然后进行尺度缩放和softmax归一化。
显然,当前单词与其自身的attention score一般最大,其他单词根据与当前单词重要程度有相应的score。
最后用这些attention score与value vector相乘,得到加权的向量。
下面是矩阵形式:
这就得到了句子内部之间的注意力分配系数。