NLTK基础教程学习笔记（十）

依赖性文本解析：
依赖性文本解析（dependency parsing 简称DP）是一种现代化的文本解析机制。DP的主要概念是将各个语法单元（单词）用丁香链路串联起来。这种链路称为依赖关系（dependencies）。在目前的文本解析社区中，有大量工作在进行。尽管短语结构式文本解析（phrase structure parsing）在异乡词序*的语言（如捷克语和土耳其语）中被广泛使用，但依赖性文本解析别被证明是一种更为有效地方法。
短语结构式文本解析与依赖性文本解析之间存在着一个明显的区别，从他们所产生的解析树上可以看出来。
解析书上短语结构树试图捕捉的首先是单词与短语之间的关系，然后是短语与短语之间的关系，依存关系树只关心单词与单词之间的关系如big完全依赖于dog。
NLTK库也提供了一些可用于执行依存性文本解析的方法。其中一个是使用基于概率的投射依存性解析器（probabilistic，projective dependency parser），但解析器得经由某个有限训练数据集来进行训练。依存性解析器的另一种形态就是Stanford解析器。下面是一个Stanford解析器的例子：
语块分解：
语块分解属于浅解析，目的是将句子分解成有意义的语块，将语块定义为文本解析中的最小单元，例如将“the President speaks about the health care reforms “句子分成两个语块。第一个语块“the President”该语块由名词主导，称为名词短语（NP），另一部分由动词主导称为动词短语。
将句子划分成各个部分的过程就是语块分解。从形式上看语块分解操作也可以被看作是一种处理接口，作用是识别出文本中互相不重叠的部分。
对于一些文本问题想只想提取其中的关键短语，命名实体或者先关项目的特定模式，在这种情况下要做浅解析非深解析，深解析回去处理所有违法语法规则的句子，也会产生不同的语法树，直到解析器在反复回溯的过程中找到最佳的解析树，整个过程非常耗时和繁琐，并且完成了所有的这些过程也未必会得到正确的解析树。而浅解析则可以用语块来保证其浅解析的结构，这种处理相对而言要较快一些。
NLTK基础教程学习笔记（十）

NLTK基础教程学习笔记（十）

相关推荐