论文笔记8:Distant Supervision for Relation Extraction beyond the Sentence Boundary
论文笔记:Distant Supervision for Relation Extraction beyond the Sentence Boundary
第一次提出应用远程监督跨句子关系抽取,文章发表于2016年
一、解决得问题
现有得远程监督关系抽取只从单句中抽取。跨句子抽取在有监督学习中已经有所研究,但利用远程监督得还没有。
二、方法和过程
2.1 思想
采用文档级图表示,融合新的句间关系到原来得相邻关系和依存关系中。
新的关系包括包括:
- coreference
- narrative structures
- rhetorical relations
获得两倍数量抽取关系结果。
2.2 相关工作
记录几个感觉比较有用得。
目前最好得从但单句子中抽取实体及其属性得代表性方法
- Extracting Attributes of Named Entity from Unstructured Textwith Deep Belief Network
- Overview of the english slot filling track at the tac2014 knowledge base population evaluation. Proc Text Analysis Conference (TAC2014)
- Type-Aware Distantly Supervised Relation Extraction with Linked Arguments.
2.3 论文提出得东西:DISCREX
-
远程监督
在大量得unlabeled text中,寻找KB中已经存在得关系对共存得段落。因为unlabeled text有100W左右得论文,所以可以找出很多这样得段落。找出得结果作为正样本,然后随机挑选共现并且没有关系得实体对作为负样本。并且为了保持样本均衡,产生和正样本数一样得负样本。
-
Minimal-Span Candidates
在远程监督中,有已知关系得共现实体对被作为正样本得候选,这在单句子中是合理得。但在跨句子关系抽取中,实体对可能出现在一个句子中,也可能出现在不同得句子中,也就是说,共现超过了一次。这时候如何选择?作者认为,应该选择距离近得。距离通过两个实体之间连续句子的数量来衡量。
如果距离都很长,没有短的,通过实验,3个句子之间认为是有推理关系的。
-
Document Graph
为了从句子内部或跨句子的实体对中获得特征,引入Document Graph。节点代表单词,边代表句子内部或者句子外部之间的关系。这些关系包括:
- dependency relations
- adjacency relations
- discourse relations
上图是横跨两个句子的文档图的例子。每个单词节点被lexical item、lemma、part-of-speech标注。
句间关系:
- 粗粒度:邻句之间,next sentence,两个句子的root相连
- 细粒度:使用discourse parser, 一个state-of-art获得修辞结构
共指关系,可以减小两个实体间的距离,增强联系,提高识别率
- 使用斯坦福共指关系系统获得共指关系,这是潜在跨句子链接的来源
- 增加从指代到其祖先的边
4 特征
依赖路径是关系抽取的重要特征。DISCREX通过在document graph上定义特征模板来实现,其包括各种交错的边(依赖关系、词相邻、句相邻关系、语篇关系等)。虽然这样会产生解析错误,但是可以通过增加邻接词之间的边允许实体之间的多条路径策略来缓解。
首先确定一条由一个实体到另一个实体的路径,每条路径可以看作是一个边和节点的序列(),其中和是特殊的头尾节点。对路径上的每个词汇或者关系进行特征提取。主要利用了词汇的三个性质, lexical item, lemma, part-of-speech tagging,进而使用词汇与关系之间的共现组成特征关系对。
- 全路径特征:每个全路径抽取四个二元指示特征,节点ni用词汇性质表示,这样做能带来高精度但是低召回率
- n-gram路径特征:提高鲁棒性和可概括性,对每个路径使用滑窗
5 Multiple paths
以前的工作只关注两个实体间的最短路径,最短路径只有在正确解析的时候才有用,不然对结果有很差影响。当使用连续的词法和句法特征时,真实数据会存在大量噪声。采用多条路线来进行特征提取, 可以缓解错误并提高鲁棒性。
不同路线的选择可人工选定.
三、实验和评估
-
远程监督知识库
使用的是GDKD(Dienstmann et al., 2015) ,包括341条关系,其中162条关系对本次实验有用。概览如下:
本论文只考虑粗粒度的药物(Therapeutic context_1)和基因(Gene)之间的联系,忽略其他字段。
-
Unlabeled Text
使用的是PubMed上的96W文本文件。以前没注意过,PubMed是提供了开发者接口的,做生物医学文献挖掘的可以从这里面下载数据,最大的非商业使用的免费可下载数据现在是200W个文本。
-
候选集生成
采用K条连续句子来避免生成不可能的候选集元素,当某个实体对中的两个实体跨越句子过长,本身就失去了关系的可靠性。经过实验,作者认为最好的K=3。
-
分类器
分类器是二元逻辑回归,使用L2的对数似然估计进行优化。初始化权重全为1,参数使用L_BFGS进行优化。将特征进行哈希处理,得到22bits长度的特征
-
自动评估和手动评估
自动评估采用五折交叉验证。
手动评估选450条实例,150条随机采样,150条评估0.9概率阈值,150条评估0.5概率阈值。两位标注者交叉评估。
八、看完这篇论文推荐看的论文
state-of-the-art methods typically consider extracting from single sentences only (Surdeanu et al., 2012; Surdeanu and Ji, 2014; Koch et al., 2014).
Multi-instance multi-label learning for relation extractionZheng et al. (2016) aggregated information from multiple sentential instances, but could not extract cross-sentence relations.
Aggregating intersentence information to enhance relation extraction