CAS-KG——知识体系构建与知识融合

说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。

课程目标

  • 了解以知识图谱为代表的大数据知识工程的基本问题和方法
  • 掌握基于知识图谱的语义计算关键技术
  • 具备建立小型知识图谱并据此进行数据分析应用的能力

教学安排
详情请见博客:CAS-KG——课程安排



1. 知识体系构建

什么是知识体系

知识体系对于知识数据的描述和定义是描述知识数据的“元数据”
CAS-KG——知识体系构建与知识融合

知识体系主要包含三方面内容

  • 词汇、类别、概念的定义和描述
    • 词汇(Term)、概念(Concept)
  • 概念之间的相互关系(Relation)
    • 分类关系(Taxonomic Relation)
    Subclass: Is_A、Part_of
    • 非分类关系(Non-Taxonomic Relation) Property/Attribute
  • 公理(Axioms)
    CAS-KG——知识体系构建与知识融合

知识体系 vs. 知识库

CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合


常用的知识组织形式
 Ontology(本体)
 Taxonomy(分类体系)
 Folksonomy/Metadata (开放标签)

  • Ontology(本体)
    CAS-KG——知识体系构建与知识融合
    CAS-KG——知识体系构建与知识融合
    本体的特点
    CAS-KG——知识体系构建与知识融合
    Ontology 例子
    CAS-KG——知识体系构建与知识融合
    CAS-KG——知识体系构建与知识融合
    Ontology 应用
    管理知识(定义、存储、分类)
    减少歧义
    推理
    Ontology 问题
    CAS-KG——知识体系构建与知识融合
  • Taxonomy(分类体系)
    Taxonomic Relation :领域相关
    CAS-KG——知识体系构建与知识融合
  • Folksonomy/Metadata (开放标签)
    • 取消Taxonomic Relation
    • 概念类别冗余
      ➢ 可以存在多个表征同一概念的类别语义标签
      ➢ 类别标签由用户提供
      CAS-KG——知识体系构建与知识融合
      不同知识组织形式的比较
      CAS-KG——知识体系构建与知识融合

如何手工构建知识体系

知识体系构建的目标
CAS-KG——知识体系构建与知识融合


人工构建方法
CAS-KG——知识体系构建与知识融合

基于人工构建的知识体系难并且不全面,所以如何自动构建成为亟需解决的问题。

如何自动构建知识体系

自动构建方法
CAS-KG——知识体系构建与知识融合

基于半结构化数据的知识体系挖掘

通过网络挖掘获取概念、关系
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合

例子:面向百科文本的知识体系挖掘

CAS-KG——知识体系构建与知识融合


结构化和非结构化数据
CAS-KG——知识体系构建与知识融合

半结构化数据
CAS-KG——知识体系构建与知识融合


半结构文本中的属性名、属性值抽取

目标:从百科普通条目半结构化网页中自从学习模板,抽取实体属性及相关的属性值
CAS-KG——知识体系构建与知识融合
基本步骤
 半结构化信息块的识别/定位
 抽取模板的学习
 属性名、属性值抽取

  • 半结构化信息块定位
    CAS-KG——知识体系构建与知识融合
    CAS-KG——知识体系构建与知识融合
    结构化信息抽取
    CAS-KG——知识体系构建与知识融合
    属性名与类别的对齐
    CAS-KG——知识体系构建与知识融合
    CAS-KG——知识体系构建与知识融合
    根据类别标签回标
    CAS-KG——知识体系构建与知识融合
  • 模板学习
    CAS-KG——知识体系构建与知识融合
    模板置信度估计
    CAS-KG——知识体系构建与知识融合
    Random walking with Restart
    CAS-KG——知识体系构建与知识融合
    CAS-KG——知识体系构建与知识融合
    CAS-KG——知识体系构建与知识融合

基于Bootstrapping的抽取过程

CAS-KG——知识体系构建与知识融合


思考:提升半结构化信息快识别的召回率
CAS-KG——知识体系构建与知识融合

思考:改进框架

CAS-KG——知识体系构建与知识融合


基于非结构化数据(纯文本)的知识体系构建

CAS-KG——知识体系构建与知识融合


概念抽取:术语(Terminology)抽取

CAS-KG——知识体系构建与知识融合


实体扩展(第6课)
CAS-KG——知识体系构建与知识融合


术语发现(Terminology Extraction)
CAS-KG——知识体系构建与知识融合


术语排序
CAS-KG——知识体系构建与知识融合
Ranking:C-value/NC-value
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合
Ranking:TF,TF-IDF
CAS-KG——知识体系构建与知识融合
Domain Relevance
CAS-KG——知识体系构建与知识融合
Domain Consensus (Information Entropy)
CAS-KG——知识体系构建与知识融合
Ranking:Topic Model
CAS-KG——知识体系构建与知识融合
利用主题分布计算词之间的相似度
CAS-KG——知识体系构建与知识融合
Ranking:TextRank
CAS-KG——知识体系构建与知识融合


同义词挖掘

CAS-KG——知识体系构建与知识融合
层次聚类(Hierarchical clustering)
CAS-KG——知识体系构建与知识融合


关系挖掘

基于模板学习的上下位关系抽取
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合

模板质量的评估
CAS-KG——知识体系构建与知识融合

基于词表示学习的上下位关系抽取
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合
思考:基于词表示学习的上下位关系抽取
CAS-KG——知识体系构建与知识融合


属性抽取(No-taxonomic Relation)
CAS-KG——知识体系构建与知识融合
思考:非监督No-taxonomic Relation抽取
CAS-KG——知识体系构建与知识融合

2. 知识融合

什么是知识融合

单一知识图谱难以覆盖各个领域,需要整合不同领域、不同语言、不同结构、不同模态的知识资源。但是不同来源知识体系具有差异性,那么如何融合呢?


知识图谱融合
CAS-KG——知识体系构建与知识融合
例子
CAS-KG——知识体系构建与知识融合


任务分解:本体匹配
CAS-KG——知识体系构建与知识融合
任务分解:实例对齐
CAS-KG——知识体系构建与知识融合
核心问题
CAS-KG——知识体系构建与知识融合

知识融合基本方法

方法分类
CAS-KG——知识体系构建与知识融合

基于文本相似度的映射方法

基于字符串匹配的映射方法

汉明距离(Hamming Distance):存在字符串????,????, 则它们之间的距离???? (????,????) 定义为:
CAS-KG——知识体系构建与知识融合
Substring Similarity:存在字符串????, ????, ????是????和????的最长公共子串,则它们之间的相似度σ( ????,????) 定义为
CAS-KG——知识体系构建与知识融合

N-gram Similarity: ????????????????????( ????, ????) 为字符串???? 中长度为???? 的子串集合,则对于字符串????,????, 它们之间的相似度σ( ????,????) 定义为
CAS-KG——知识体系构建与知识融合

编辑距离( Levenshtein Distance):将一个字符串转成另一个字符串的最少编辑操作数(插入、删除、替换)
CAS-KG——知识体系构建与知识融合
将Lvensshtain 转换成Levenshtein,总共操作 3 次,编辑距离是3。这是典型的动态规划问题,可通过动态规划算法计算。给定两个字符串????,????,????,????分别为字符串????, ????的下标,则它们之间的编辑距离为????????,????(|????|, |????|),不失一般性, ????????,????(????,????)可以计算为:
CAS-KG——知识体系构建与知识融合

基于语言处理的映射方法

CAS-KG——知识体系构建与知识融合

基于语义匹配的映射方法

CAS-KG——知识体系构建与知识融合
利用外部资源:WordNet,Hownet
CAS-KG——知识体系构建与知识融合

基于结构相似度的映射方法

基于内部结构的映射方法

CAS-KG——知识体系构建与知识融合

基于层级结构的相似度计算方法

CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合
思考:基于树编辑距离
CAS-KG——知识体系构建与知识融合

基于外部结构的映射方法

CAS-KG——知识体系构建与知识融合

基于网络表示学习的映射方法

CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合
CAS-KG——知识体系构建与知识融合

小结

  • 本节课内容
    ➢知识体系:Ontology
    ➢知识体系构建方法
    ➢知识融合方法
  • 挑战
    ➢NLP技术面临巨大的挑战(语义表示)
    ➢Large Scale
    ➢Efficiency
    ➢背景知识
    ➢多系统融合
    ➢Crowdsourcing