【NLP复习】Attention机制
Attention机制通过对encoder所有时间步的hidden state加权平均来得到背景变量。
其中a就是softmax把Q跟K的值们归一化了
- 机器翻译:
- Q是decoder每一步的hidden state
- K是encoder每一步的hidden state
- V=K
- 通过Q跟K算出V中hidden states们的权重,让V中这些hidden state加权求和
- 文本分类(self-Attention):
- Q=K=V=句子各个词的embedding
- 两种Attention机制的区别(求权重a时不同):
【参考资料】