【NLP复习】Attention机制

Attention机制通过对encoder所有时间步的hidden state加权平均来得到背景变量。
【NLP复习】Attention机制
其中a就是softmax把Q跟K的值们归一化了
【NLP复习】Attention机制
  • 机器翻译:
    • Q是decoder每一步的hidden state
    • K是encoder每一步的hidden state
    • V=K
    • 通过Q跟K算出V中hidden states们的权重,让V中这些hidden state加权求和
  • 文本分类(self-Attention):
    • Q=K=V=句子各个词的embedding
  • 两种Attention机制的区别(求权重a时不同):
    • 【NLP复习】Attention机制

【参考资料】