构建流程

构建中文知识图谱关键技术和流程

知识抽取

实体指的是某一具体事物。如具体的某一人名、地名、书名、学科名等。有如下三种方法来进行实体识别。
基于（百度、维基）百科
构建中文知识图谱关键技术和流程
如我们可以根据百度百科爬取我们需要的垂直领域或开放域的实体。

基于统计机器学习

基于深度学习
1）Bi-LSTM + CRF
2）BERT-NER
开放域的实体抽取
基于已知实体的语义特征去搜索日志中识别出命名的实体，然后进行聚类。

从百科、垂直领域、表格中抽取
一般地，我们可以直接在网站上抽取属性属性值，或者可以直接根据结构化的表格抽取属性和属性值，很难根据文本来抽取属性-属性值。

人工构造

基于机器学习

基于深度学习

不同的实体名指的是同一实体应该统一。如微软创始人，比亚盖茨，Bill Gates三个词指得是同一个实体，我们应该统一。

实体名相同，其实指得不是同一个实体。如，苹果可能指苹果手机公司，也可能指得是水果。我们需要根据上下文消除歧义。

本体又称概念，语义类，是对实体的抽象，实体类的集合。

徐增林等知识图谱技术综述
史树明自动和半自动知识提取
侯梦薇等知识图谱研究综述及其在医疗领域的应用