注意力机制的两种形式

注意力机制的两种形式:
一、additive attention(tensorflow里面称为Bahdanau attention)
       这种机制的定义引用了论文https://arxiv.org/pdf/1409.0473.pdf

注意力机制的两种形式

注意力机制的两种形式

该注意力机制最显著的特征就是Q与K的对齐函数使用了一层神经网络;

 

二、第二种机制dot-product attention(multiplicative/Luong    attention)

 这种机制引用 attention is all your need论文中解释:
注意力机制的两种形式

这种机制最显著的特征就是Q与K的对齐函数直接点乘;

 

从其他地方有一个统计,如下所示:
注意力机制的两种形式