论文阅读(9)Towards Cross-Domain PDTB-Style Discourse Parsing(2014)

Towards Cross-Domain PDTB-Style Discourse Parsing(2014)

走向跨域的PDTB式篇章分析,1h,速读

Motivation

  • Discourse Relation Parsing是为了理解句子边界以外的文本。

  • 文献表明,篇章连接词检测 和 篇章关系sense分类的 篇章分析子任务不能很好地 跨领域推广

  • 在本文中,提出了 PDTB训练的 篇章关系分析器的 跨域评估,并评估了 论元跨度提取 子任务上的 特征级域自适应技术。

  • 我们证明子任务可以很好地跨领域推广。

具体步骤

  • Argument Position Classification

  • Argument Span Extraction

实验结果

  • 评估方法

论文阅读(9)Towards Cross-Domain PDTB-Style Discourse Parsing(2014)

训练好的 论元跨度提取模型(SS,PS,ALL) 的域内性能

论文阅读(9)Towards Cross-Domain PDTB-Style Discourse Parsing(2014)
  • Cross-Domain Argument Position Classification

  • In-Domain Argument Span Extraction: PDTB

  • In-Domain Argument Span Extraction: BioDRB

  • Cross-Domain Argument Span Extraction: PDTB - BioDRB

    • we additionally train PDTB models on the automatic features. (通过自动句子分割、标记化和句法分析从PDTB中提取的特征。)
  • 论元跨度提取 比 搜索连接检测和关系sense分类的论述子任务更好地推广到生物医学领域。

  • Feature-Level Domain Adaptation(特征级领域适应)

论文阅读(9)Towards Cross-Domain PDTB-Style Discourse Parsing(2014)
  • 跨域论元提取实验表明,在优化特征集上训练的模型具有良好的泛化能力。

  • 然而,它们依赖于关系sense分类任务,这不能很好地概括。

  • 通过用 “connective labels” 替换连接词senses,我们获得了独立于该任务的模型,同时保持了相当的性能。

结论

  • 提出了 跨域语篇分析器 对 论元位置分类 和 论元跨度提取子任务的评价。

  • 观察到的跨域性能表明了良好的模型概括。

  • 但是,由于这些模型是在 pipeline 的后期应用的,它们会受到其他任务跨域性能的影响。

  • 此外,我们还提出了特征级领域自适应技术,以 减少 跨领域论元跨度提取 对其他语篇分析子任务的依赖。

  • 提供句子切分 和 标记化的句法解析器(斯坦福)在Penn Treebank上训练,即对于PDTB是域内,对于BioDRB是域外;

  • 众所周知,域优化的标记化 提高了各种自然语言处理任务的性能。因此,这项工作的未来方向是使用针对生物医学领域优化的工具来评估 论元跨度提取