《统计自然语言处理》第九章
词义消歧
词义消歧又称之为词义标注,任务是确定一个多义词在给定的上下文语境当中的具体含义。
发展概述
早期多采用基于规则的分析方法;
20世纪80年代以后,基于大规模语料库的统计机器学习方法在自然语言领域得到了广泛应用;
除此之外,还有一个重要来源是基于词典信息的消歧方法。
有监督的消歧方法当中,可以认为多义词的语义是与不同上下文进行对应的,所以说多义词的识别问题也就是词语的上下文分类问题;
无监督的消歧方法当中,首先利用聚类算法对于同一个多义词的上下文进行等价类划分,如果一个词的上下文出现在多个等价类当中,认为该词是一个多义词。
有监督的词义消歧办法
基于互信息的词义消歧办法
基本思路是为每一个需要消歧的多义词寻找一个上下文特征,而使得这个特征可以可靠的指示该多义词在特定上下文语境中使用的是哪种语义。
在双语料库中,可以将英语单词看作是汉语词语的语义,将决定汉语词语的条件看作是语义指示器。
具体求解过程:
- 训练
使用Flip-Flop算法
是语义,是语义指示器的取值,那么算法执行步骤如下。
(1)随机将划分成为两个集合{}
(2)找到语义指示器的一种划分方式{},使得P、Q之间的互信息最大;
调整语义集合的划分,使得P、Q之间的互信息最大
执行如上循环,一直到互信息不再增加或者是增加甚少。 - 求解,即词义消解
对于出现的歧义词确定其指示器值
根据指示器的值所在的集合,确定其对应的语义集合。
基于贝叶斯分类器的消歧办法
基本思路是语义取决于上下文语境c,如果某个多义词w有多个翻译,那么可以通过计算来确定w的词义。
前期准备:
根据贝叶斯公式进行推导:
此时为了简化计算,我们假设上下文中的每个词都是独立的,那么可以得到:
这些概率都可以用最大似然法得到。
具体求解过程:
- 训练过程
对于每个语义,计算得到
对于每个语义、每个词典中的词,计算得到 - 消歧过程
基于词典的词义消歧方法
基于词典语义定义的消歧方法
基本思想:
词典中词条本身的定义就可以作为判断语义的一个很好的条件;比如说cone的定义为”松树的松果“和”盛放冰激凌的薄饼“,那么可以认为上下文中出现”松树“的时候,很可能该单词就是第一个定义。
那么可以根据上下文与语义的重合程度来对于语义进行打分,从而选出最适合的语义。
数学公式表达:
其中,s指的是语义,D指的是语义在词典当中的定义,v指的是上下文中的单词,E指的是单词在词典当中的定义。
基于义类辞典的消歧办法
义类,指的是单词属于的领域类别——比如说动物、建筑物、机械等等。
基本思想:
通俗来说,就是根据该词所处于的语境所属于的”主题领域“来进行猜测。
根据上下文的语义范畴判断多义词的使用义项。
基于双语词典的消歧办法
建立多义词x与相关词y之间的搭配关系,然后在第二种语言的语料库当中统计x不同的语义翻译与相关词y之间搭配的次数。
那么将搭配次数最高的语义判断为当前的语义。
无监督的词义消歧办法
- 上下文分组辨识方法
使用EM算法估算某一个义项的上下文中出现同一个词的概率是多大。 - 基于无指导学习技术的词义消歧办法
词义消歧系统评测
SENSEVAL是ACL词汇兴趣小组组织的关于词义消歧的公共评测任务。
主要的评测指标为:
词义消歧的准确率、召回率、覆盖率和FM
附加
互信息
两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。
直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。