《自然语言计算机形式分析的理论与方法》读书笔记(5)
第5章 基于依存和配价的形式模型
5.1 依存语法DG(从属关系语法,[法]泰尼埃)
5.1.1 关联
关联要建立起句子中词与词之间的依存关系来。依存关系使用“图式”表示:
例如“我吃个苹果”的图式:
这个图很有意思啊!和结构树的形式很不相同,把句子的关键成分提出来了,而且每个节点上的符号都是终结符
泰尼埃认为:
动词是句子的中心,支配着别的成分,本身不受其他任何成分的支配,主语和宾语都在动词支配之下,可以相互调位置,形成被动句;
应该把结构顺序和线性顺序区别开来。结构顺序是二维的树,线性顺序是一维的串;
-
图式中直接处于动词节点之下的,是名词词组和副词词组。名词词组形成行动元,副词词组形成状态元
- 行动元的数目(即配价数目)不超过3:主语、宾语1、宾语2
- 状态元可以是无限的
- 动词的行动元可以不饱和,即有些价可以空缺
潜在关联:语义上的关联而非结构关联,在图式中用虚线表示
5.1.2 转位
四个基本词类动词I、名词O、形容词A、副词E,依存关系如图
这个图式可以通过“转位”加以复杂化。转位者与被转位者合起来构成一个转位,使被转位者的词性发生变化。
考察被转位者的词性,OAE是一度转位,I是二度转位。转一次是简单转位,连续地从一个成分多次转到其他成分是复杂转位。
如上图中vif的复杂转位。形容词vif由le转位为名词,le vif再由dans转位为副词。
该法语词组表面意思为“割到肉里”,引申为果断的意思。查了下vif就是有肉的意思,而且是名词,这样看起来似乎应该是le vif(O)被dans(PREP)简单转位为E啊?为什么后文le vif也是属于A>O,转位者le为INCICE呢?难道是冯老师搞错了?不懂法语,求解释。
一共有六种转位:O>A, O>E, A>O, A>E, E>O, E>A
转位者有:介词PREP,后缀SUFF,加标记INDICE,空∅
5.1.3 依存语法在NLP中的应用
铁路工人学习英语语法——短语结构树和依存树:
二者可以相互转化
依存树没有前于关系……看得不仔细啊,有前于关系
词语法:语法是由一种语言里所有词构成的网络,单词之间的关系有isa关系、part关系和各种依存关系,依存关系是最重要的关系。
著名的语法分析器Stanford Parser就定义了很多种依存关系标记,如aux,cop等
https://nlp.stanford.edu/software/lex-parser.shtml#Sample
分别展示了词性标注、短语结构树和依存关系三种分析结果
5.2 配价语法(略)
感觉这部分深入看意义不大,故略