您的位置: 首页 > 文章 > 论文笔记 | Modeling Intra-Relation in Math Word Problems with Different Functional Multi-Head Attentions

论文笔记 | Modeling Intra-Relation in Math Word Problems with Different Functional Multi-Head Attentions

分类: 文章 • 2024-08-08 09:42:04

简介

Jierui Li, Wang Lei 和 Dongxiang Zhang团队发表在ACL19上的工作。主要使用不同功能的Multi-Head Attention来获取不同类型对象的关系。

受到multi-head attention工作的启发，作者设计了四种不同的attention机制：

Global attention：以整个句子的表示作为query, key和value，以获取全局信息，
Quantity-related attention：一个句子内部的操作数和其上下文之间的attention。
Quantity-pair attention：两个操作数之间的attention以及一个操作数和一个未知数之间的attention。
Question-related attention：获取问题和操作数之间的关系。【具体的输入设计，我认为和quantity-pair attention中的设计有些重复】

系统的框架图如下，整体是一个seq2seq架构。操作步骤为：

对于一个问题文本，先通过bi-LSTM得到每个词基于上下文的向量表示。
得到向量表示后，根据不同attention的要求不同，选择适合的向量输入各个attention。得到各自的输出。
四个不同attention得到的输出进行拼接，得到encoder部分的输出。
在decoder中，使用LSTM+attention，得到最终的表达式。

分析

Strong Points:

相比直接将问题文本输入seq2seq，输出表达式的算法，利用attention的方法，从一定程度上考虑了操作数之间的关系，让计算更加合理。
对于两个操作数之间的关系，能想到利用attention的方法，对其上下文表示计算相似度。
global attention 和 quantity-related attention以及question-related attention都比DNS提升8%以上。
开源代码code

Weak Points：

在实验部分看到，quantity-pair attention的提升相比其他三个要少一些。但其实两个操作数的关系对于解题来说非常重要。所以，quantity-pair attention的设计需要改进。
文中使用逗号和句号分隔句子，每一个包含操作数的句子表示成向量，作为该操作数基于上下文的向量表示。这里假设每个句子中只有一个操作数，不甚合理。