NLP:知识图谱总结
1、知识图谱的直观展示:
知识图谱本质上是一种语义网络,将客观的经验沉淀在巨大的网络中;
结点代表实体或者概念;
边代表实体/概念之间的关系;
2、知识图谱的表示方法
构成知识图谱的核心三元组
三元组:实体、属性、关系,Entity、Attribute、Relation
抽取为<实体1,关系,实体2>和<实体1,属性1,属性值1>
例如<达观数据,is-a,人工智能公司><人工智能公司,subclass,高科技公司><达观数据,start-time,2015年>
基于已有的三元组,可以推导出新的关系
为什么使用三元组来描述知识图谱
三元组是一种简单的易于人类解读的结构
三元组方便计算机程序来进行抽取和加工处理
3、AI为什么需要知识图谱
AI需要从感知智能迈向认知智能,认知的建立需要思考的能力,而思考是建立在知识基础上的;
知识图谱富含实体、概念、属性、实践、关系等信息,基于一定的知识推理为可解释性AI提供了全新的视角和机遇;
C罗为啥那么牛?
知识图谱有助于消除自然语言和深度学习黑盒之间的语义鸿沟;
4、通过知识图谱中的概念理解自然语言
在问答研究中,自然语言问题的理解或者语义表示是一个难题,同样语义的问题表达方式往往是多样的。
5、通用知识图谱VS行业知识图谱
6、知识图谱典型行业应用介绍
- 知识图谱助力多个行业的人工智能应用
- 知识图谱助力企业实现商业智能
- 知识图谱金融行业应用1:风控反欺诈
- 知识图谱行业应用2:辅助信贷审核投研分析
- 知识图谱行业应用4:精准营销
- 知识图谱在搜索引擎中的应用:谷歌知识图谱
7、利用知识图谱来提供个性化推荐
场景化推荐(沙滩鞋->游泳衣、防晒霜、海岛度假产品)
任务型推荐(牛肉卷、羊肉卷->火锅底料、电磁炉;螺丝、螺钉->多功能螺丝刀)
冷启动环境下推荐(语义标签:摄影VS旅游;相同导演或主演的电影;)
跨领域推荐(微博如何推荐淘宝商品?用户经常晒九寨沟、黄山、泰山的照片->淘宝登山装备)
知识型推荐(清华大学、北京大学->复旦大学(985名校)、百度->腾讯(互联网BAT等)
- 精准感知任务与场景,想用户之未想
- 从基于行为的推荐发展到行为与语义融合的智能推荐
8、构建知识图谱
- 知识图谱的生命周期
- 本体的概念
- 本体层(模式,Schema)的定义的例子
- 开源的本体工具:protege
- 知识抽取:实体抽取(NER)
- 知识抽取:关系抽取技术
有监督的学习方法:把关系抽取当成分类问题(缺点:需要大量人工标注的语料)(召回率和精准率更高)
半监督的学习方法:bootstraing(通过迭代方式不断抽取实例)
无监督的学习方法:把关系抽取当成聚类问题(相同语义,利用上下文信息代表语义信息进行聚类)
- 远程监督抽取的其中一个工具:
Deepdive:知识抽取框架
- 知识图谱关系抽取:基于深度学习端到端的联合标注
将抽取问题转换成标注任务,训练一个端到端标注模型来抽取关系
根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果
缺点:容易造成错误传播,实体识别错误,后面关系也就错了;
产生很多冗余信息,需要将实体进行两两配对,在进行关系的分类,很多配对之间没有关系,就会带来很多冗余的信息;
基于神经网络的标注方法:
模型参数共享:进行实体训练的时候,进行实体识别和关系抽取都会反向传播进行参数更新
标注策略(怎么进行有效的标注)
9、知识融合:实体链接和实体合并
- 实体对齐:旨在发现具有不同标识实体但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中;
(比如中华人民共和国、china、中国表示意思一样)
- 实体对齐主要通过计算实例之间的相似度:具有相同描述的实体可能代表同一实体(字符相似);具有相同属性值的实体可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象
- 充分考虑数据源的可靠性以及不同信息在各个数据源中出现的频度等因素来决定最终选用哪个类别或哪个类别或哪个属性值
- 利用来自如LOD(linked open data)中已有的人工对齐标注数据(使用OWL:sameAs)关联两个实体)可以作为训练数据学习发现更多相同的实体对。
- 无论何种自动化方法都无法保证100%的准确率,这些方法的产出结果将作为候选供人工进一步审核和过滤
10、知识存储:数据库选择
11、知识推理
- 基于符号的推理
- 基于OWL本体的推理
- 基于图的方法(PRA算法)
- 基于分布式知识语义表示的方法(Trans系列)
知识图谱本质上是一种语义网络,将客观的经验沉淀在巨大的网络中;
三元组:实体、属性、关系,Entity、Attribute、Relation
抽取为<实体1,关系,实体2>和<实体1,属性1,属性值1>
例如<达观数据,is-a,人工智能公司><人工智能公司,subclass,高科技公司><达观数据,start-time,2015年>
AI需要从感知智能迈向认知智能,认知的建立需要思考的能力,而思考是建立在知识基础上的;
知识图谱富含实体、概念、属性、实践、关系等信息,基于一定的知识推理为可解释性AI提供了全新的视角和机遇;
- 知识图谱助力多个行业的人工智能应用
- 知识图谱助力企业实现商业智能
- 知识图谱金融行业应用1:风控反欺诈
- 知识图谱行业应用2:辅助信贷审核投研分析
- 知识图谱行业应用4:精准营销
- 知识图谱在搜索引擎中的应用:谷歌知识图谱
-
任务型推荐(牛肉卷、羊肉卷->火锅底料、电磁炉;螺丝、螺钉->多功能螺丝刀)
冷启动环境下推荐(语义标签:摄影VS旅游;相同导演或主演的电影;)
- 精准感知任务与场景,想用户之未想
- 从基于行为的推荐发展到行为与语义融合的智能推荐
- 知识图谱的生命周期
- 本体的概念
- 本体层(模式,Schema)的定义的例子
- 开源的本体工具:protege
- 知识抽取:实体抽取(NER)
- 知识抽取:关系抽取技术
-
有监督的学习方法:把关系抽取当成分类问题(缺点:需要大量人工标注的语料)(召回率和精准率更高)
- 远程监督抽取的其中一个工具:
- 知识图谱关系抽取:基于深度学习端到端的联合标注
-
根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果
产生很多冗余信息,需要将实体进行两两配对,在进行关系的分类,很多配对之间没有关系,就会带来很多冗余的信息;
- 实体对齐:旨在发现具有不同标识实体但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中;
- 实体对齐主要通过计算实例之间的相似度:具有相同描述的实体可能代表同一实体(字符相似);具有相同属性值的实体可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象
- 充分考虑数据源的可靠性以及不同信息在各个数据源中出现的频度等因素来决定最终选用哪个类别或哪个类别或哪个属性值
- 利用来自如LOD(linked open data)中已有的人工对齐标注数据(使用OWL:sameAs)关联两个实体)可以作为训练数据学习发现更多相同的实体对。
- 无论何种自动化方法都无法保证100%的准确率,这些方法的产出结果将作为候选供人工进一步审核和过滤
- 基于符号的推理
- 基于OWL本体的推理
- 基于图的方法(PRA算法)
- 基于分布式知识语义表示的方法(Trans系列)
- TransR模型
- TransR模型
通过在关系模型里面的距离来判断实体之间是否有这样的关系
清华大学:openKE(知识表示学习平台)