Understanding Dataset Design Choices for Multi-hop Reasoning

Understanding Dataset Design Choices for Multi-hop Reasoning (NAACL 2019) 阅读笔记

记录论文中几个有趣的实验。

1.单句包含答案实验

首先做了一个简单的实验，给模型输入一个句子以及问题，模型输出该句包含问题对应答案的概率。然后在这两个数据集上分别训练了这么一个模型，再测试，发现超过一半的样例都成功判断出了包含答案的句子。

实验结果表明：不进行多跳推理就可以定位答案。这可能是由于模型具有简单的词汇匹配功能。

【思考】：答案预测是以命名的实体为驱动的，从而浅层的匹配功能就能完成答案的预测。能否设计出不以实体为驱动的问题？或者设计出能够产生实体层面干扰的distractor sentences?

2.可以可以不看文章直接答

对于wikihop 数据集，只给模型问题以及候选答案集合，不给定文章，让模型预测答案。

实验结果：

Understanding Dataset Design Choices for Multi-hop Reasoning

给只问题就选择答案，准确率竟然达到了59.70！

3.Span-based vs. Multiple-choice

HotpotQA是一个span式的数据集，而Wikihop则是一个多选的数据集。作者把hotpotQA(distractor setting)中的不包含答案的其余9个文档中抽取出一个实体，这9个实体和答案组成候选答案集合，从而将HotpotQA改造成多选数据集。然后对于Wikihop数据集，作者也将其改造成了span式的数据集，具体的改造方法是：把所有文档连接起来，第一次出现答案的位置就是gold span。

实验结果：

Understanding Dataset Design Choices for Multi-hop Reasoning

做了实验之后发现，在HotpotQA和Wikihop-Span(基于答案抽取的Wikihop)上得分都比较低，而在HotpotQA-MC(多选择式的hotpotQA)和Wikihop上的结果都挺高的。

作者经过分析得到了以下结论：
（1）当训练集和测试集都是多选数据集的时候，模型（注意是论文中进行实验的模型）就不会多跳推理
（2）Span式的数据集更加具有挑战性，但仍然有一些问题不需要多跳推理也能回答
（3）给多选式数据集增加选项并不能从本质改变这一现象（如上图）
（4）Span式的训练数据更加健壮（powerful）

Understanding Dataset Design Choices for Multi-hop Reasoning