邹磊教授的Ganswer问答系统架构

邹磊教授的问答系统有两个阶段,第一个阶段是线下准备阶段,第二个是线上查询阶段。
1、线下准备阶段
构造语义词典供线上查询阶段使用:
就是查找知识图谱中某个关系的规则集,不过直接通过dfs查找的规则集可能不会正确的代表这个关系的规则,如:孙子的一个关系集(儿子,儿子)(后代,后代),其中(后代,后代)就不能正确代表他的规则,解决的方法是过滤掉那些在别的关系规则集中也存在的规则。例如:孙子[(儿子,儿子)(后代,后代)],孙女[(儿子,女儿)(后代,后代)]。这两个关系都会过滤掉(后代,后代)这个规则,得到的规则集为孙子[(儿子,儿子)],孙女[(儿子,女儿))]
这一步最终构造的规则集如下
邹磊教授的Ganswer问答系统架构
这个规则集也可用于知识推理中。
2、线上阶段
线上阶段分为两个步骤,第一个步骤是问句解析,第二个步骤是答案查询
1、问句解析主要是从问句中提取中关系、实体,这一步也叫NLU。邹磊教授的方法是建立依赖树,然后通过自己的方法从里面提取出关系和实体(对应论文中的4.1.1和4.1.2),之后构建查询图如下。
邹磊教授的Ganswer问答系统架构

2、答案查询
在查询图中,每个结点和每个边都有候选实体和关系。首先得到每个结点(边)和候选者之间的相似度(通过模糊匹配,实体对齐得到),然后进行子图匹配(这部分为邹磊教授自己的算法,4.2.1)。
综上,邹磊教授的自然语言处理的架构为
1、挖掘规则集(提供文本和关系的相似度)—邹磊教授的算法
2、根据问句构建依赖树 —使用现有方法
3、从问句中提取关系文本和实体文本 —邹磊教授的算法
4、(1)得到实体文本和rdf中实体之间的相似度 —现有的模糊匹配/实体链接方法
(2)得到关系文本和rdf中关系之间的相似度(步骤1中提供)
5、子图匹配的优化算法 —邹磊教授的算法