Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

  1. 为什么提出  ——  远程监督存在的一些问题

        1)  已经存在的知识库会启发式的对实体

             KB当中Entity之间的关系和自然语言文本的对齐是启发式的,两个Entity同时存在一个句子就被标记KB当中            的关系。

             然而这种假设太强,就存在许多错误标记的问题(如“【乔布斯】吃了一个【苹果】”,就是错误标记,KB中           表示这两个是CEO关系,但实际上不是)

        2)采用统计模型添加特征存在太大的噪声导致训练结果很差

 

  1. 提出了什么

        PCNNs: Piecewise Convolutional Neural Networks with multi-instance learning

 

        如何解决:

        1)错误标记的问题,采用了Multiple Instance Learning(所有instance被聚合到若干个包当中,一个包如果被           标记为正项,那么至少有一个正项instance,如果被标记为负项,那么 一定不存在一个正项instance),由此降           低错误标记带来的影响。

        2)特征工程的错误,则直接不引入任何人工特征工程的工作,直接使用一个CNN + Piecewise Max Pooling             去抽取特征。

 

        主要贡献:

        1)自动提取特征,不需要NLP工具

        2)融合multi-instance learning来解决wrong label的问题

        3)利用piecewise max pooling来提取两个entity之间结构化的信息

 

        Vector Representation, Convolution, Piecewise Max Pooling and Softmax Output

 

  1. 模型

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

    1)输入

         word tokens(look up in Word Embeddings)

         position features

    

         use Skip-gram model (Mikolov et al., 2013) to train word embeddings