论文笔记 | Modeling Intra-Relation in Math Word Problems with Different Functional Multi-Head Attentions

简介

Jierui Li, Wang Lei 和 Dongxiang Zhang团队发表在ACL19上的工作。主要使用不同功能的Multi-Head Attention来获取不同类型对象的关系。

受到multi-head attention工作的启发,作者设计了四种不同的attention机制:

  • Global attention:以整个句子的表示作为query, key和value,以获取全局信息,
  • Quantity-related attention:一个句子内部的操作数和其上下文之间的attention。
  • Quantity-pair attention:两个操作数之间的attention以及一个操作数和一个未知数之间的attention。
  • Question-related attention:获取问题和操作数之间的关系。【具体的输入设计,我认为和quantity-pair attention中的设计有些重复】

系统的框架图如下,整体是一个seq2seq架构。操作步骤为:

  • 对于一个问题文本,先通过bi-LSTM得到每个词基于上下文的向量表示。
  • 得到向量表示后,根据不同attention的要求不同,选择适合的向量输入各个attention。得到各自的输出。
  • 四个不同attention得到的输出进行拼接,得到encoder部分的输出。
  • 在decoder中,使用LSTM+attention,得到最终的表达式。
    论文笔记 | Modeling Intra-Relation in Math Word Problems with Different Functional Multi-Head Attentions

分析

Strong Points:

  • 相比直接将问题文本输入seq2seq,输出表达式的算法,利用attention的方法,从一定程度上考虑了操作数之间的关系,让计算更加合理。
  • 对于两个操作数之间的关系,能想到利用attention的方法,对其上下文表示计算相似度。
  • global attention 和 quantity-related attention以及question-related attention都比DNS提升8%以上。
  • 开源代码code

Weak Points:

  • 在实验部分看到,quantity-pair attention的提升相比其他三个要少一些。但其实两个操作数的关系对于解题来说非常重要。所以,quantity-pair attention的设计需要改进。
  • 文中使用逗号和句号分隔句子,每一个包含操作数的句子表示成向量,作为该操作数基于上下文的向量表示。这里假设每个句子中只有一个操作数,不甚合理。