知识图谱和语义计算 | (1) 知识图谱概述

知识图谱和语义计算系列博客主要基于国科大赵军老师《知识图谱和语义计算》课程进行整理。

第一讲是知识图谱的相关概述,只需简单了解有个大体印象即可,之后各讲会详细展开介绍。

1. 什么是知识图谱

  • 人工智能的三个阶段
    1)计算智能
    运算和存储能力
    2)感知智能
    感知是人和动物通过感觉器官与自然界进行交互的能力。视觉、听觉、触觉等。(图像、语音识别)
    3)认知智能
    特指人在感知世界以及人与人互动的过程中形成的、对世界万物的理性认识,包括记忆、概括、推理等。
    知识工程在人工智能中占据核心地位

  • 数据、信息、知识、知识库
    1)数据是人脑感知的最原始的记录,未经加工和解释,与其他数据没有联系,因此不具有语义,不能回答任何问题。如符号、文字、语音、图像、视频等
    2)信息是经过加工和解释,通过某种关联而具有含义的数据
    3)知识是经过挑选、改造形成的、可以用于决策的、系统化的信息
    知识工程:数据和信息 -> 知识
    4)知识库:对各种知识进行收集和整理的基础上,进行形式 化表示,按照一定方法存储,并提供相应的知识查 询手段,就形成知识库。是知识共享和应用的基础。知识图谱是知识库的一种形式。

  • 知识图谱:图的结构
    1)以结构化三元组的形式存储现实世界中的实体及其关系,表示为(实体,谓词,实体) ,三元组通常描述了一个特定领域中的事实,由头实体/主语实体、尾实体/宾语实体和描述这两个实体之间的关系组成。
    知识图谱和语义计算 | (1) 知识图谱概述
    2)谓词分为关系和属性,不过有时关系和谓词是等同的,属性可以看作是关系的一种,此时尾实体称为属性值。(头实体,关系,尾实体)如(姚明,出生地,上海);(头实体,属性,属性值)如 (姚明,身高,2.26)
    3)从图结构的角度看,实体是知识图谱中的节点,关系是连接两个节点的有向边。

  • 知识图谱具有结构化、关联化和规范化的特点

  • 知识图谱以丰富的语义表示能力和灵活的结构构建了在计算机世界中表示认知世界和物理世界中信息和知识的有效载体。
    知识图谱和语义计算 | (1) 知识图谱概述

2. 知识图谱发展历程

  • 人工智能:知识的数据化——让计算机表示、组织和存储人类的知识
  • 语义网:数据的知识化——让数据支持推理等智能任务
    知识图谱和语义计算 | (1) 知识图谱概述

3. 知识图谱的类型和代表性知识图谱

  • 实体、关系、属性、词语
    1)实体:entity,客观存在并可相互区别的事物,可以是具体的人、 事、物,也可以是抽象的概念。(运动员、科学家就是抽象的概念;姚明、爱迪生就是具体的人)
    2)关系:relation,不同的实体之间各种联系。
    层级关系(Taxonomic Relation):is-a,Hypernym-Hyponym(上下位)如树属于植物,运动员是人。
    非层级关系(Non-taxonomic Relation):Meoronymy 部分整体、Thematic roles 论旨角色、Attribute 属性、Possession 领属、 Casuality 因果,等等
    3)词语:单词和短语,用于描述实体、关系这些认知单元的语言单位。实体和关系是有确切含义的;词语是有歧义的,在不同的语境中指称不同的实体或关系。一个词可以表示多个实体,如乔丹可以指篮球运动员乔丹,也可以指机器学习专家乔丹;一个实体也可以用多个单词表示,如科比可以用黑曼巴、小飞侠、唠嗑等单词表示。

  • 本体、知识库、数据库
    1)Ontology:本体,一套对客观世界进行描述的共享概念化体 系。它对特定领域中概念(事物的类型)及其相互关系进行 形式化表达,重点是对数据的定义进行描述,而不是描述具体事物的实例数据。涉及概念、关系和公理三个要素
    可以把本体理解为一个模版,是一个顶层的表示,具体的(知识)实例(底层表示)挂载在本体之下。如(运动员,属于,球队) ,(姚明,属于,火箭队)
    2)Knowledge Base:知识库,服从于ontology 控制的知识实例及其载体。
    3)Database:数据库,计算机科学家为了用电脑表示和存储计算机应用中所需要的数据所设计开发的产品。

  • Ontology vs. Taxonomy vs. Folksonomy

  1. Taxonomy:分类法,或称分类体系,是由专家编制的专业层 次类别体系,如中图分类体系等。也有一些不严格的分类体系, 通常由一些组织为了自身需要而编制,如Yahoo分类目录等。
  2. Ontology:本体,共享概念的规范。Ontology通常涵盖概念 之间的分类体系,但是除此之外,更重要的是它还有概念之间 的相关关系,如反向、传递、对称等,以及在此基础上建立的 推理规则,从而支持复杂推理。由于具有严格的规范,一般用 户难以构建。
  3. Folksonomy:社会分类法,是由用户的*标签自动形成的 一种分类法,在对同一事物进行标签的所有标签中,取出高频 标签作为分类标签。严格讲,是一种标签方法,并不一定构成 一个分类体系。另一方面,标签具有随意性(歧义性)。
  • 知识的类型
    1)语言知识:语言层面上的知识,例如:Microsoft 的缩写是 MS;乔丹和佐敦具有同指关系;减肥和瘦身是同义词等。
    2)百科知识:涵盖各个行业、领域的通用知识,例如:人物、 机构、地点等。
    3)领域知识:某个领域/行业内特有的专业知识,例如:法律知识、 金融知识等。
    4)场景知识:某个特定场景下或者需要完成某项任务时所需要的知识,例如:在订机票过程中需要提供的信息;盖房子的步骤等。
    5)常识知识:那些大家都认可的知识,例如:狗有四条腿、鸟 会飞等。

  • 知识图谱的类型
    1)语言知识图谱: WordNet
    2)常识知识图谱:Cyc、ConceptNet、HowNet
    3)百科知识图谱:DBpedia、Freebase、Google KG、Wikidata
    4)语言+百科知识图谱:YAGO、BabelNet
    5)领域知识图谱:医学知识图谱 SIDER(Side Effect Resource)、电影知识图谱 IMDB (Internet Movie Database)、音乐知识图谱 MusicBrainz
    知识图谱和语义计算 | (1) 知识图谱概述

  • 通用知识图谱 vs. 领域知识图谱
    1)通用知识图谱:面向通用领域;以百科知识、常识知识为主;基于结构化的百科知识;强调知识的广度;使用者是普通用户
    2)领域知识图谱:面向某一特定领域/行业;基于行业知识库;基于行业数据构建;强调知识的深度;潜在使用者是行业人员
    3)通用知识图谱 + 领域知识图谱:通用知识图谱的广度,领域知识图谱的深度,相互补充,形 成更加完善的知识图谱;通用知识图谱中的知识,可以作为行业知识图谱构建的基础 ;而构建的行业知识图谱,再融合到通用知识图谱中。
    知识图谱和语义计算 | (1) 知识图谱概述

4. 知识图谱的生命周期

  1. 知识本体构建
    1)也叫知识建模;
    2)指采用什么样的方式表达知识,其核心是构建一个本体对目标知识进行描述。该本体需要:
    定义出知识的类别体系;每个类别下所属的实体和概念;某类概念和实体所具有的属性以及概念之间、实体之间的语义关系;定义在这个本体上的一些推理规则
    3)建模领域知识结构。
    输入:领域 (医疗、金融…),以及更具体的应用场景
    输出:领域知识本体。包括:领域实体类别体系;实体类别的属性;类别之间的语义关系;语义关系之间的关系
    4)主要技术:Ontology Engineering
    5)作为语义网的应用,知识图谱的知识建模采用语义网的知 识建模方式,分为概念、关系、概念关系三元组三个层次 ,并利用 “资源描述框架 (RDF)”进行描述。
    6)RDF 的基本数据模型包括了三个对象类型:
    资源 (Resource):能够使用 RDF 表示的对象称之为资源,包括互联网上的实体、事件和 概念等。
    谓词 (Predicate):主要描述资源本身的特征和资源之间的关系。每一个谓词可以定义元知识,例如,谓词的头尾部数据值的类型(如定义域和值域)、谓词 与其他谓词的关系(如逆关系)。
    陈述 (Statements):一条陈述包含三个部分,通常称之为 RDF 三元组 < 主体 (subject), 谓词 (predicate),宾语 (object)>。其中主体是被描述的资源,谓词可以表示主体的属性,也可以表示主体和宾语之间关系。当表示属性时,宾语就是属性值;当表示关系时,宾语也是一个资源。

  2. 知识获取
    1)输入: 领域知识本体;海量数据:文本、垂直站点、百科
    2)输出:实例知识。包括实体集合,实体关系/属性
    3)主要技术:信息抽取、文本挖掘
    4)知识来源:结构化数据(infobox)、半结构化数据(表格型数据)、非结构化数据(文本,重点)。把上述数据转换为结构化的知识。
    5)模块:实体识别,实体链接,关系(属性)抽取,事件抽取,事件关系判别等(之后各讲回详细介绍)
    知识图谱和语义计算 | (1) 知识图谱概述

  3. 知识融合
    1)输入: 抽取出来的知识;知识本体;现有知识库
    2)输出:统一知识库;知识置信度
    3)关键技术:Ontology Matching 、Entity Linking
    4)任务:对不同来源、不同语言或不同结构的知识进行融合, 从而对于已有知识图谱进行补充、更新和去重。如 BabelNet :融合不同语言的知识图谱,实现跨语言的知识 关联和共享;YAGO :对专家构建的高质量语言知识图谱WordNet 和网 民协同构建的大规模实体知识图谱Wikipedia 进行融合而 形成的,实现质量和数量的互补;
    5)从融合的对象看,可以分为知识本体融合和知识实例融合。
    知识本体融合:两个或多个异构知识体系进行融合,即对相同的类别、属性、关系进行映射。
    知识实例融合:对于两个不同知识图谱中的实例(实体实例、关系 实例)进行融合,包括不同知识本体下的实例、不同语言的实例等。
    6)从融合的知识图谱类型看,可以分为:竖直方向的融合和水 平方向的融合。
    竖直方向的融合:融合(较)高层通用本体与(较)底层领域本体 或实例数据,如:融合 Wordnet (高层)和 Wikipedia(底层)。
    水平方向的融合:融合同层次的知识图谱,实现实例数据的互补。如:融合 Freebase 和 DBpedia。

  4. 知识存储和查询
    1)输入:大规模知识图谱
    2)输出:知识库存储结构,查询服务
    3)主要技术:知识表示、知识查询语言、存储/检索引擎
    4)RDF图模型,查询语言:SPARQL
    5)属性图模型,查询语言:Cypher

  5. 知识推理
    1)任务:采用推理的手段发 现已有知识中隐含的知识(知识图谱补全,关系/边预测)
    2)输入: 大规模知识图谱
    3)输出: 隐含知识
    4)主要技术:基于逻辑规则的推理;基于表示学习的推理
    知识图谱和语义计算 | (1) 知识图谱概述
    4)计算手段
    符号推理:特点是在知识图谱中的实体和关系符号上直接进行推理。本质是学习并应用推理规则
    数值推理:使用数值计算,尤其是向量矩阵计算的方法, 捕捉知识图谱上隐式的关联,模拟推理的进行。本质是分布式知识表示,将符号化的实体和关系在低维连续向量空间进行(嵌入)表示,在简化计算的同时最大程度保留原始的图结构。(如TransE)

  6. 知识应用
    知识图谱和语义计算 | (1) 知识图谱概述

5. 知识图谱和深度学习

  • 符号表示
    知识表示:人工抽象的符号逻辑
    知识推理:符号演算
    优点:显式语义,解释性好
    缺点:人工建立,覆盖度不够,难 以应对大规模开放域计算需求
    知识图谱和语义计算 | (1) 知识图谱概述
    符号主义;知识图谱

  • 数值表示
    数据表示:基于原始文本,在数值空间中表示语言符号(把语言符号进行嵌入表示,表示为数值向量或矩阵)
    语义计算:数值计算
    优点:可计算、自学习
    缺点:依赖标注数据、语义不明确、 难于利用已有知识。
    知识图谱和语义计算 | (1) 知识图谱概述
    连接主义;深度学习

  • 深度学习和知识图谱的融合
    知识图谱和语义计算 | (1) 知识图谱概述

6. 总结

  • 知识图谱的特点
    1)知识图谱是人工智能应用不可或缺的基础资源
    2)语义表达能力丰富,能够胜任当前知识服务
    3)描述形式统一,便于不同类型知识的集成与融合
    4)表示方法对人类友好,给众包等方式编辑和构建 知识提供了便利
    5)二元关系为基础的描述形式,便于知识的自动获取
    6)表示方法对计算机友好,支持高效推理
    7)基于图结构的数据格式,便于计算机系统存储与检索

  • 未来发展方向
    1)多模态知识图谱建模
    2)多粒度知识自动抽取和大规模知识图谱构建
    3)符号逻辑和深度学习结合的语义计算和推理方法
    4)人机协同的辅助决策模式