Understanding Dataset Design Choices for Multi-hop Reasoning
Understanding Dataset Design Choices for Multi-hop Reasoning (NAACL 2019) 阅读笔记
记录论文中几个有趣的实验。
1.单句包含答案实验
首先做了一个简单的实验,给模型输入一个句子以及问题,模型输出该句包含问题对应答案的概率。然后在这两个数据集上分别训练了这么一个模型,再测试,发现超过一半的样例都成功判断出了包含答案的句子。
实验结果表明:不进行多跳推理就可以定位答案。这可能是由于模型具有简单的词汇匹配功能。
【思考】:答案预测是以命名的实体为驱动的,从而浅层的匹配功能就能完成答案的预测。能否设计出不以实体为驱动的问题?或者设计出能够产生实体层面干扰的distractor sentences?
2.可以可以不看文章直接答
对于wikihop 数据集,只给模型问题以及候选答案集合,不给定文章,让模型预测答案。
实验结果:
给只问题就选择答案,准确率竟然达到了59.70!
3.Span-based vs. Multiple-choice
HotpotQA
是一个span式的数据集,而Wikihop
则是一个多选的数据集。作者把hotpotQA
(distractor setting)中的不包含答案的其余9个文档中抽取出一个实体,这9个实体和答案组成候选答案集合,从而将HotpotQA
改造成多选数据集。然后对于Wikihop
数据集,作者也将其改造成了span式的数据集,具体的改造方法是:把所有文档连接起来,第一次出现答案的位置就是gold span。
实验结果:
做了实验之后发现,在HotpotQA
和Wikihop-Span(基于答案抽取的Wikihop)
上得分都比较低,而在HotpotQA-MC(多选择式的hotpotQA)
和Wikihop
上的结果都挺高的。
作者经过分析得到了以下结论:
(1)当训练集和测试集都是多选数据集的时候,模型(注意是论文中进行实验的模型)就不会多跳推理
(2)Span式的数据集更加 具有挑战性,但仍然有一些问题不需要多跳推理也能回答
(3)给多选式数据集增加选项并不能从本质改变这一现象 (如上图)
(4)Span式的训练数据更加健壮(powerful)