【cs224n-14】Reference in Language and Coreference Resolution

本文主要讲解语言中的指称和指称的消解，介绍其相关定义和发展情况。

1.什么是指代消解？

指代是指:识别所有涉及到相同现实世界实体的 提及。通俗点讲是篇章中的一个语言单位（通常是词或短语）与之前出现的语言单位存在特殊语义关联，其语义解释依赖于前者。例如He, her 都是实体的提及，He,her的具体表示意思依赖与之前出现的语言单位。

举几个例子：

李明怕高妈妈一人呆在家里寂寞，他便将家里的电视搬了过来。

上面例子中的加粗部分，很明显依赖于前文。在语言学把用于指向的语言单位（上面例子中的粗体部分）称为照应语（或指代语Anaphor），被指向的语言单位（具体的实体）称为先行语（或先行词Antecedent）。确定照应语所指的先行语的过程就是指代消解。

2.指代消解可用于哪些场景？

全文理解：信息提取, 回答问题, 总结。例：“他生于1961年”(谁?)
机器翻译：语言对性别，数量等有不同的特征
对话系统

3.指代发现的方式

Pronouns 代词：因为代词是 POS 检测结果的一种，所以只要使用 POS 检测器即可。
Named entities 命名实体：使用命名实体识别系统。
Noun phrases 名词短语：使用依存句法分析方法。

基于以上方法我们可能获取到比较多的非指代的词，如："Every student"、"No student"、"The best donut in the world",，我们如何处理呢？

可以训练一个分类器过滤掉假的指代
更为常见的：保持所有指代作为 “候选指代”。在你的共指系统运行完成后，丢弃所有的单个引用(即没有被标记为与其他任何东西共同引用的)

流水线系统：我们可以训练一个专门用于指代检测的分类器，而不是使用POS标记器、NER系统和解析器。甚至端到端共同完成指代检测和共指解析，而不是两步。

4.指代消解的分类

从照应语的角度将指代消解分为三类：

按先行词与照应语出现的顺序分类
若照应语的位置在先行语之前则称为预指消解，当照应语位于先行语之后称为回指消解。
按照应语的抽象程度分类
根据指代的表现形式的抽象程度，指代消解分为名词消解、代词消解、零代词消解，具体有六种：

【cs224n-14】Reference in Language and Coreference Resolution

其中，零代词在中文句子中出现的频率很高。
   3.按照应语在句子中语义关系强弱程度分类
      当先行语和照应语存在等价关系，并同时指向同一个实体时叫做共指。共指关系脱离上下文的语义仍旧独立存在，与上下文关系较弱。
   （非等价）指代消解是指先行语与照应语之间存在着非对称关系并且和上下文的语义有着紧密联系，在不同的语义和语境下照应语指代的先行语是不同的。

【cs224n-14】Reference in Language and Coreference Resolution
非等价指代消解的目标是：寻找照应语对应的先行语；
而共指消解的目标是：发现指向相同实体的语言表示单元，很有可能包括多语篇任务。