Transformer的position embedding

1. position embedding 位置编码
我们为什么要引入位置编呢?主有以下几个原因:

  • 文本是时序型数据,词与词之间的顺序关系往往影响整个句子的含义。
  • transformer模型的self-attention层并没有包含位置信息,即一句话中词语在不同的位置时在transformer中是没有区别的。

我们要想让位置信息参与训练,就要构造一个跟输入embedding维度一样的矩阵,然后跟输入embedding相加得到multi-head attention (这个会在后面的部分讲解到)的输入。position encoding说白了就是一个矩阵,那么这个矩阵如何生成,生成
Transformer的position embedding
其中,PE为二维矩阵,维度跟输入embedding的维度一样,行表示词语,列表示词向量;pos 表示词语在句子中的位置;i表示在该词语中,词向量所在的位置(在哪一个dimension)。因此,上述公式表示在每个词语的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此来填满整个PE矩阵,然后加到input embedding中去,这样便完成位置编码的引入了。

为什么要用三角函数来表示位置信息呢? 其实也用其他的表示方式,对于transformer模型的positional encoding有两种主流方式:

  • 绝对位置编码
    Transformer的position embedding

  • 相对位置编码
    Transformer的position embedding