论文笔记2

一、语义分析目的

1)词法分析

    词法分析包括分词、词性标注、命名实体识别和词义消歧。

    分词和词性标注好理解。

    命名实体识别的任务是识别句子中的人名、地名和机构名称等等命名实体。每一个命名实体都是由一个或多个词语构成的。

    词义消歧是要根据句子上下文语境来判断出每一个或某些词语的真实意思。

2)句法分析

    句法分析是将输入句子从序列形式变成树状结构,从而可以捕捉到句子内部词语之间的搭配或者修饰关系,这一步是NLP中关键的一步。

    目前研究界存在两种主流的句法分析方法:短语结构句法体系,依存结构句法体系。其中依存关系句法体系现在已经成为研究句法分析的热点。

    依存语法表示形式简洁,易于理解和标注,其可以很容易的表示词语之间的语义关系,比如句子成分之间可以构成施事,受事,时间等关系。这种语义关系可以很方便的应用鱼语义分析和信息抽取等方面。依存关系还可以更高效的实现解码算法。

    句法分析得到的句法结构可以帮助上层的语义分析,以及一些应用,例如机器翻译、问答、文本挖掘、信息检索等。

3)语义分析

 语义分析的最终目的是理解句子表达的真实语义。当时用什么形式来表示语义一直没有能够很好的解决。语义角色标注是比较成熟的浅层语义分析技术。给定句子中的一个谓词,语义角色标注的任务就是从句子中标注出这个谓词的施事、受事、时间、地点等参数。语义角色标注一般都在句法分析的基础上完成,句法结构对于语义角色标注的性能至关重要。

二、文本信息提取的基础设施

论文笔记2论文笔记2
词典什么的在FNLP中都有源代码我们需要知道的就是如何使用,并且根据它开源的特性改进。

三、汉语命名实体的识别

(1)人名(包括中国人名和外国人译名)
(2)地名(包括中国地名和外国地名)
(3)组织机构名(包括*机构、社会团体、企业等名称)
(4)数字表达式和时间表达式(包括数值、数码、时点和时段)

分两步走:
第一步是词语一级的,与分词同步进行; 第二部是短语一级的,可作为句子(浅层)分析的一部分。
- 词语级命名实体的主要任务是:
(1)中国人名识别;
(2)外国译名识别;
(3)中国地名识别;