self-attention计算过程

概念

self-attention从字面上看,就是自己对自己的注意力

了解过注意力机制的都知道Q,K,V,在self-attention中,Q,K,V是相同的字嵌入X乘以训练得到的权重得到的。
self-attention计算过程
它也符合注意力机制的计算过程,主要分为以下三部分计算

阶段一

对输入的单词进行词嵌入得到X,X分别与权重计算得到了Q(查询向量),K(键向量),V(值向量)

得到Q,K,V之后,再计算得分,假设我们在为这个例子中的第一个词“Thinking”计算自注意力向量,我们需要拿输入句子中的每个单词对“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多重视句子的其它部分。
self-attention计算过程

阶段二

除以8(8是指论文中使用的键向量维数64的平方根,作用是让梯度更加稳定)。

然后通过softmax进行归一化,得到的数都是正数且和为1
self-attention计算过程
这里的softmax分数决定了每个单词对编码当下位置(‘thinking’)的贡献。

阶段三

softmax求得分数乘以值向量,作用是,关注与Q相关的单词,而弱化不相关的单词。

然后进行加权求和。
self-attention计算过程

通过矩阵运算实现注意力机制

X是词嵌入矩阵,W是权重矩阵(训练得到),
self-attention计算过程

处理矩阵,计算注意力的输出
self-attention计算过程