句法分析
定义
分析句子的句法结构并将其表现为容易理解的结构
短语结构树
上下文无关法
上下文无关法:非终止符可以递推出至少一个下级符号.从起始符开始,逐级递推非终止符,最终可以获得一颗句法树
也就是说,给定一个句子,通过上下文无关法,可以将其分解为一棵句法树
如句子"上海浦东开发与法制建设同步"
分解过程如下:
(上海浦东开发与法制建设)(同步) //分解为主谓
((上海浦东)(开发与法制建设))(同步) //主语可以分解为两个名词短语
…
一步步递归下去,最终获得了如下的句法树
短语结构语法复杂,句法分析器准确率并不高
引入:依存句法树
依存句法树
短语结构树递归分析句子成分的词性,而依存句法树更偏向于修饰词与被修饰词之间的依存关系
通过依存关系构造的依存句法树具有以下特性
1.根节点唯一性
2.联通
3.无环
4.投射性
基于转移的句法分析
本质上是监督学习,通过训练当模型能够自动识别成分之间的依存关系
定义一个转移系统,该系统根据自己的状态和输入的单词预测下一步要执行的转移操作
转移系统S= {C,T,cs,Ct}
分别代表转移状态的集合,可执行转移动作的集合,初始化函数,终止状态
系统状态可分为{α,β,A}
分别表示存储单词 的栈,队列,已经确定依存关系的弧
将β中的词语逐步提取到α中,构造两者的依存关系,并加入到A中
直到栈为空且队列只剩虚根,即所有词语都已经经过了分析,结束
依存句法分析的特征模板需要包含单词,词性,站和队列中的位置,和左右子节点
而要将树结构带入机器学习模型进行训练,需要将其转化为规范.人工编写的静态规范具有局限性,而动态规范不显示地输出唯一的规范,而是让机器学习模型自由试错,调整.更具灵活性.