2020.07.08_Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering

2020.07.08_Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering

论文简述:
BERT模型已成功地应用于开放域QA任务。然而,以往的工作是通过观察与独立训练实例相同的问题对应的段落来训练BERT,这可能会导致不同段落的答案得分存在不可比性。为了解决这个问题,本文提出了一个多通道的BERT模型来对同一问题的所有段落的答案得分进行全局标准化,这种变化使得我们的QA模型能够通过使用更多的段落找到更好的答案。此外,我们还发现,通过滑动窗口将文章拆分成100字的段落,可以将性能提高4%。通过利用一个通道ranker来选择高质量的通道,多通道BERT获得额外的2%提高。

翻译标准: article,指的是一整篇文章,粒度最大,翻译为篇章 passage,本文指的是篇章的中的一个段落,粒度稍小,统一翻译为文章
paragraph,跟passage类似,粒度应该更小点。翻译为段落。

模型:

  • bert-Rc:每个passage都是独立进行预测,但不可比较。
  • multi-passage bert:通过使用滑动窗口机制来划分篇章为(article)很多个100字的passage,然后进行全局的归一化,得到答案相关的所有文章的得分。
  • 排序机制: 然后排序模块是高质量的文章进行召回,用预测文章与答案的相关性,然后再进入softmax排序。最后出结果

???这里的高质量文章怎么评判的?(前30个)

2020.07.08_Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering

实验:

  • 滑动窗口效果实验
  • 粒度
  • 排序模块的效果
  • 全局标准化的效果

https://zhuanlan.zhihu.com/p/93402967