机器阅读理解发展及任务解析

一.机器阅读理解介绍

自然语言处理 Natural Language Processing（NLP）

NLP四大基本任务

序列标注：分词、词性标注
分类任务：文本分类、情感分析
句子关系：问答系统、对话系统
生成任务：机器翻译、文章摘要

NLG（有关生成任务） & NLU（重在计算机理解文本）

阅读理解是什么

通过阅读从文本中抽取信息并理解意义的过程

机器阅读理解的定义

Machine Reading Comprehension（MRC）
QA问题的一个子集，含有contexts（Q通过contexts回答A）
通过交互从书面文字中提取与构造文章语义的过程

MRC四大任务

完形填空
原文中除去若干关键词，需要模型填入正确的单词或短语
相关数据集：CNN&Daily Mail、CBT
多项选择
模型需要从给定的若干选项中选出正确答案
相关数据集：MC Test、RACE
答案抽取
回答限定是文章的一个子句，需要模型在文章中标注正确答案的起始和终止位置
相关数据集：SQuAD、NewsQA
*回答
不限定模型生成答案的形式，允许模型*生产数据
相关数据集：MS MARCO、DuReader

DuReader数据集：
http://ai.baidu.com/broad/download?dataset=dureader
https://aistudio.baidu.com/aistudio/competition/detail/28
https://arxiv.org/abs/1711.05073
SQuAD数据集：
1.0：10w可回答问题区间式回答
2.0：10w可回答问题 +5w无答案问题
https://rajpurkar.github.io/SQuAD-explorer/