邹磊教授的Ganswer问答系统架构

邹磊教授的问答系统有两个阶段，第一个阶段是线下准备阶段，第二个是线上查询阶段。
1、线下准备阶段
构造语义词典供线上查询阶段使用：
就是查找知识图谱中某个关系的规则集，不过直接通过dfs查找的规则集可能不会正确的代表这个关系的规则，如：孙子的一个关系集（儿子，儿子）（后代，后代），其中（后代，后代）就不能正确代表他的规则，解决的方法是过滤掉那些在别的关系规则集中也存在的规则。例如：孙子[（儿子，儿子）（后代，后代）],孙女[（儿子，女儿）（后代，后代）]。这两个关系都会过滤掉（后代，后代）这个规则，得到的规则集为孙子[（儿子，儿子）],孙女[（儿子，女儿））]
这一步最终构造的规则集如下
邹磊教授的Ganswer问答系统架构
这个规则集也可用于知识推理中。
2、线上阶段
线上阶段分为两个步骤，第一个步骤是问句解析，第二个步骤是答案查询
1、问句解析主要是从问句中提取中关系、实体，这一步也叫NLU。邹磊教授的方法是建立依赖树，然后通过自己的方法从里面提取出关系和实体（对应论文中的4.1.1和4.1.2），之后构建查询图如下。
邹磊教授的Ganswer问答系统架构

2、答案查询
在查询图中，每个结点和每个边都有候选实体和关系。首先得到每个结点（边）和候选者之间的相似度（通过模糊匹配，实体对齐得到），然后进行子图匹配（这部分为邹磊教授自己的算法，4.2.1）。
综上，邹磊教授的自然语言处理的架构为
1、挖掘规则集（提供文本和关系的相似度）—邹磊教授的算法
2、根据问句构建依赖树 —使用现有方法
3、从问句中提取关系文本和实体文本 —邹磊教授的算法
4、（1）得到实体文本和rdf中实体之间的相似度 —现有的模糊匹配/实体链接方法
（2）得到关系文本和rdf中关系之间的相似度（步骤1中提供）
5、子图匹配的优化算法 —邹磊教授的算法

邹磊教授的Ganswer问答系统架构

相关推荐