构建中文知识图谱关键技术和流程

构建流程

构建中文知识图谱关键技术和流程

知识抽取

实体识别

实体指的是某一具体事物。如具体的某一人名、地名、书名、学科名等。有如下三种方法来进行实体识别。
基于(百度、维基)百科
构建中文知识图谱关键技术和流程
如我们可以根据百度百科爬取我们需要的垂直领域或开放域的实体。

基于统计机器学习

  1. KNN + CRF
    2)监督+规则

基于深度学习
1)Bi-LSTM + CRF
2)BERT-NER
开放域的实体抽取
基于已知实体的语义特征去搜索日志中识别出命名的实体,然后进行聚类。

属性抽取

从百科、垂直领域、表格中抽取
一般地,我们可以直接在网站上抽取属性 属性值,或者可以直接根据结构化的表格抽取属性和属性值,很难根据文本来抽取属性-属性值。

关系抽取

人工构造

基于机器学习

基于深度学习

知识融合

实体对齐

不同的实体名指的是同一实体应该统一。如微软创始人,比亚盖茨,Bill Gates三个词指得是同一个实体,我们应该统一。

实体消歧

实体名相同,其实指得不是同一个实体。如,苹果可能指苹果手机公司,也可能指得是水果。我们需要根据上下文消除歧义。

知识加工

本体构建

本体又称概念,语义类,是对实体的抽象,实体类的集合。

质量评估

参考文献

徐增林 等 知识图谱技术综述
史树明 自动和半自动知识提取
侯梦薇 等 知识图谱研究综述及其在医疗领域的应用