知识图谱入门学习笔记(四)-知识抽取之问题和方法
目录
知识抽取基础:问题和方法
1 问题分析
1.1 知识抽取的场景数据源
-
(半)结构化文本数据:百科知识中的Inforbox、规范的表格、数据库、社交网络等
-
非结构化文本数据:网页、新闻、社交媒体、论文等
- 多媒体数据:图片、视频
1.2 从信息抽取到知识抽取
- IE(信息抽取):非结构转为结构进行抽取
- KE(知识抽取):提取为可以便于推理表示的数据存储
区别:信息抽取获得结构化数据,知识抽取获得机器可理解和处理的知识( 知识表示)。
关系:知识抽取建立在信息抽取基础上,都普遍利用到自然语言处理技术、基于规则的包装器和
机器学习等技术。
1.3 知识抽取的例子
1.4 知识提取的挑战
1.4.1 知识的不明确:
知识的不完备性
-
关系确实
-
标签/属性缺失
-
实体缺失
知识的不一致性
2 知识抽取场景和方法
2.1 面向结构化的数据知识抽取
2.1.1 从关系数据库中抽取知识
抽取原理
- 表(Table)-类(Class)
- 列(Column)-属性(Property)
- 行(Row) -资 源/实例(Resource/Instance)
- 单元(Cell)-属性值Property Value)
- 外键(Foreign Key)- - 指代(Reference)
从关系数据库中抽取知识
抽取标准:
-
Direct Mapping
-
R2RML
抽取工具
- D2R,Vrituoso,Orcle SW, Morph等
- R2RML映射语言
输入:数据库表、视图、SQL查询
输出.三元组
实例:
“员工”和“部门”两个关系数据库表
该数据库表映射的RDF
步骤;
- 1抽取类
- 2抽取属性
- 3.抽取实例
- 4.建立类之间关系
2.2 面向半结构化数据的知识抽取
大规模多语言百科知识图谱,*的结构化版本
2.2.1 linked data 核心数据集
覆盖127种语言,两千八百万个实体,数亿三元组,支持数据集的完全下载固定模式对实体信息进行抽取,包括abstract,infobox, category, page link等
比如百科知识的抽取
2.2.2YAGO百科知识抽取
特点:
- YAGO整合了WikiPedia与WordNet
- 覆盖多种语言,1000万个实体,1.2亿个三元组
- 在YAGO2整合了GeoNames,增加了对时空信息的支持
- 通过规则对实体信息进行抽取与推断
YAGO的百科知识抽取
2.2.3 ZhiShi,me
2.3 面向无结构数据的知识抽取
2.3.1 实体识别
抽取文本中的原子信息
-
人名
- 组织/机构
- 地理位置
- 时间/日期
- 字符
- 金额
2.3.2 关系抽取
关系抽取指实体间的语义关系
2.3.3 事件抽取:
事件抽取例子