跳跃NLP曲线:自然语言处理研究综述(三)(翻译)

3. 重叠NLP曲线

随着互联网时代的到来,文明经历了深刻的影响,我们现在比以往任何时候都经历的快很多。即使是适应、发展和创新技术,也会让人感到恍惚,即淘汰就在眼前。特别是NLP研究在过去15年中并没有像其它技术那样发展。

虽然NLP研究在执行人工智能行为方面取得了很大进展,比如,谷歌IBM的Watson,Apple的Siri,这些NLP框架都没有真正了解它们正在做什么—使它们与鹦鹉没有什么不同,鹦鹉学会重复单词而不清楚地理解它的含义。今天,即使是最流行的NLP技术也将文本分析视为单词或模式匹配任务。然而,试图希望通过在单词的级别上处理来理解一段文本的含义,与尝试通过像素级分析,来理解图片并没有什么不同。

在用户生成的内容(UGC)淹没在自己的输出中的网络中,NLP研究人员面对同样的挑战:需要跳过曲线,使他们的思维发生重大的、不连续的跳跃,是关于信息检索、聚合还是处理。依赖于任意关键词,标点符号和单词共现频率到目前为止工作得相当好,但是随着UGC的爆发,以及诸如网络抄袭、舆论、垃圾邮件之类的欺骗性现象的爆发,导致标准的NLP算法的效率降低。为了正确地提取和操纵文本含义,一个NLP系统必须能够获得关于世界和语言领域的大量知识。

为此,NLP系统将逐渐停止依赖基于单词的技术,同时开始一致地利用语义。因此,从语法曲线跳到语义曲线(图1)。NLP研究中穿插了单词级别的方法,因为,第一眼看上去,语言结构最基本的单位似乎就是单词。然而,单个单词表达的意思只是概念的一个子集,多个单词表达带有特定的语义和情感(sentics),也就是说,通常与现实世界的对象、动作、事件和人相关联的外延和内涵信息。特别的,sentics指定与这样的现实世界实体相关联的情感信息,这是常识推断和决策的关键。
跳跃NLP曲线:自然语言处理研究综述(三)(翻译)
语义学和情感学包括普通知识(人力通常在其生命形成期间获得)和常识(人们在日常生活中继续积累)在一个可重复使用的机器知识库中。普通知识包括有关世界的一般知识,如椅子是一种家具,而常识性知识包括人们通常对世界了解但在话语中通常没有明显陈述或广泛接受的事物,比如,物体总是会向下的(而不是向上的),人们在快乐时会微笑。普通知识和常识知识之间的差异可以表示为知道对象的名称,但理解同一对象目的之间的差异。比如,你可以知道“管”的所有不同种类或品牌的名字,但这并不是它的目的和使用方法。换句话说,‘烟斗’并不是烟斗,除非它被使用时(图2)。


跳跃NLP曲线:自然语言处理研究综述(三)(翻译)

通过综合运用普通知识和常识,我们可以掌握高级和低级的概念以及自然语言理解的细微差别,从而有效地与其他人沟通,而无需不断地询问定义和解释。特别指出的是,根据不同的背景,常识是将自然语言文本正确的解构为情感的关键。比如,酒店的评论里有‘小房间’,在评估时则是负面的,而对于邮局来说,‘小排队’则是正向的。或者‘去读这本书’这个概念对于书评而言是积极的,但对于电影评价则是否定的。

然而,语义只是将NLP与自然语言理解分开的规模中的一层。为了实现准确和合理地处理信息的能力,算法模型还需要能够及时投射语义和情感,根据不同的背景及其对应的不同的参与者及其意图,以一种平行和动态的方式比较它们。这意味着从语义曲线跳到语用曲线,这将使NLP更具适应性,于是,开放域,上下文感知和意图驱动。特别是,意图将是情感分析等任务的关键-情感分析通常具有负面含义的概念,比如,小座位,可能会变成积极的,比如,如果目的是让婴儿安全地坐在里面。

虽然语法曲线是一个单词包的模型,语义曲线的特征在于包含概念的一个模式,语用曲线的范式将成为叙事包模型。在最后一个模型中,每段文本都将由小故事或相互关联的剧集表示,导致更详细的文本理解和合理计算。虽然概念包模型有助于克服诸如词义消歧和语义角色标记之类的问题,但叙述包模型将能够解决NLP问题,比如共同参考决议和文本蕴涵。

4. 关于语法曲线的思考

在今天,以语法为中心的NLP仍然是最常用的管理任务的方式,如信息检索和提取,自动分类,主题建模等。尽管语义爱好者这么多年依然在争论从语法转变的重要性和必然性,如今,绝大多数NLP研究人员仍试图在语法曲线上保持平衡。以语法为中心的NLP可以大致分为三大类:关键字定位,词性相似性和统计方法。

4.1 关键字定位

关键字定位是最单纯的方法,可能也是最受欢迎的方法,因为它具有可访问性和经济性。基于相当明确的单词的存在将文本进行分类。流行的项目,包括:Ortony的情感词典,将词汇进行情感类别划分;Penn Treebank,由超过450万字的美国英语组成的语料库,注释为部分语音信息;网页排名,谷歌最为著名的排名算法;LexRank,一种基于随机图的方法,用于计算NLP文本单元的相对重要性;最后,文本排名,一种基于图表的文本处理排名模型,它是基于两种无监督的关键词和句子提取方法。关键字定位的主要弱点在于它依赖于明显的词语,而这些词语只是文字的表面特征。比如关于狗的文本文件,却从未提到‘狗’这个词,因为狗是根据它所属的特点品种来处理的,所以可能永远不会被基于关键字的搜索引擎检索到。

4.2 词性相似性

词性相似性比关键字定位稍微复杂一点,因为它不是简单的检测显而易见的单词,而是将任意单词分配给特定类型的概率—即‘affinity’。比如,‘accident’表示负面事件的概率有75%,如“车祸”或者“在事故中受伤”。这些概率通常是从语言语料库中收集的。虽然这种方法通常优于纯关键字定位,但它还是有两个主要问题。第一,完全依赖于单词级别的词性相似性很容易被句子所欺骗,比如,“我避免了意外”(否定)和“我偶然遇见了我的女朋友”(无计划但有惊喜的成分)。第二,词性相似性的概率通常偏向于特定类型的文本,由语言语料库的来源决定。这使得开发可重用的,与相关域无关的模型变的十分困难。

4.3 统计NLP

统计NLP自1990年以来一直是NLP的主流研究方向。它依赖于基于流行的机器学习算法,比如极大似然估计,期望最大化,条件随机场和支持向量机的语言模型。通过将大量注释文本的训练语料库提供给机器学习算法,系统不仅可以学习关键词的有效性(与关键字定位方法一样),也会考虑其他任意关键词的有效性(就像词性相似性),标点符号和单词出现频率。然而,统计模型通常在语义上较弱,这意味着,除了明显的关键词,统计模型中的其他词汇或同时出现的元素几乎没有预测价值。因此,统计文本分类器在给定足够大的文本输入时仅以可接受的准确度工作。所以,虽然这些方法可能能够对页面或者段级上的文本进行分类,但它们在较小的文本单元(如句子或子句)上不能很好的工作。