统计自然语言处理(词汇获取)

概述

词汇获取的一般目的,通过考察大型文本语料库中词汇出现的模式,设计一种算法和统计技术来填补现有电子词典的不足。在自然语言中我们感兴趣的大部分词的特性并没有被收录到电子词典中,自然语言的新词和旧词新用法总是层出不穷,即使我们编辑了现有所有存在的词汇,过几天也会有新的出现,所以词汇获取在自然语言中则显得十分重要。本章包含4个部分:动词子范畴,附着歧义,选择倾向,词汇之间的语义相似性。可以看到之前谈到的词汇搭配和语义消歧都是这个部分的一些特例。

评价方法

这里讲到了一些常用的机器学习中的指标,即精确率(precision),召回率(recall)等概念。这里简单提一下吧,对一个目标做出决策,我们根据对错的划分可以得到一个2x2的联立矩阵,如下图。以及下面的图表示。这里解释一下,其实这些参数有很多算法可以得出不同的指标,重点在于我们考虑的分类问题中,你关注的是什么,比如这里我们有大量的文本,错误的分到错误的概率就很大,所以我们更考虑召回率和准确率,对于正确率(accuracy)来说,我们的TN太大,所以对其他我们感兴趣的数据变得不敏感了。因此这里我们考虑找回和准确率。
统计自然语言处理(词汇获取)
统计自然语言处理(词汇获取)
容易想到,对于上图,很多时候准确率和召回率是相互制约的,你更倾向于把数据判对,召回率就可能高一点,准确率就可能低一点。所以我们做出ROC曲线,来帮助我们进行合理的选择,有时候也用一个衡量值F对两者做权重处理,如下。
统计自然语言处理(词汇获取)
这里并不是重点,有关这些衡量标准有很多机器学习的课程中都有介绍,最后贴一张图来给大家感性的感觉一下这几个指标对文本处理分类的影响大小。
统计自然语言处理(词汇获取)

动词子范畴

这里大致描述是这样,每个动词实际上是有一些固定搭配的,比如tell,think后面常带从句,play等就没有,那么我们判断的时候如果能拿到这些信息,我们就可以比较好去做决策。然后书中提供了一种办法,通过正则给出框架,然后假设检验法来做,具体细节没有看懂。这里就这样过吧!
统计自然语言处理(词汇获取)

附着歧义

附着歧义是自然语言分析过程中普遍存在的一个过程,这里也只做简单介绍,当我们分析一个句子的句法时,经常会遇到这样的问题,即一个短语附着在几个地方都是可以的,尤其是宾语名词后面的介词短语。
eg:The children ate the cake with a spoon
这里两种意思,一种是孩子吃一个插着spoon的蛋糕,一种是用勺子吃蛋糕。我们需要去区分哪些组合更合理。其实这个地方和上面动词子范畴有相似之处,都是研究句法中词语的相关关系,这个句法分析在后面概率上下文无关分析中也会提到,那里我们用概率去判断哪个最合适。这里我们可能仍然是去找一些词语的匹配来确认哪个更优。其实有个简单的办法就是去统计词频,eat with spoon 应该比cake with spoon 出现的要多,所以简单的统计效果时常也是不错的。这里我介绍仅仅希望知道句法分析中可以依赖这些特殊的关系更好的帮助我们去分析构建语法树,仅此而已,具体算法忽略。给大家看一下就差不多了。
统计自然语言处理(词汇获取)
一种启发式算法,根据几个频率来算λ,根据λ的值来确认附着在什么上面,据说可以达到80%准确率。
说到这里,个人有个想法,我们对于这些判断的时候,实际是并没有这多语法相关的知识的,比如我们只看名词动词不看句子其他部分,也许我们也不能做出合理的区分,那么这个时候需要尝试用人去做一个算法理论上界,这样就可以发现,哪些是我们不可忽略的,哪些是我们可以忽略的,有可能我们的思路很简单,有可能就是词频呢,不过这里还夹杂了一些其他的内容,就是人的常识,我们需要更细化一下这个常识,就是主题关联倾向,比如吃后面多半是食物,这是人很容易联想的,但是机器算法统计可能不太能统计出来。

总结

由于选择倾向和语义相似性方法上都偏启发式,所以这里我再讲述。