文本自动摘要概述
一,文本摘要概述
文本自动摘要是利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。
代表系统有:
- 密歇根大学的NewsInEssence。
- 哥伦比亚大学的NewsBlaster。
二,文本摘要分类
三,文本摘要方法
三种摘要方法
- 抽取式摘要:直接从原文中抽取已有的句子组成摘要。
- 压缩式摘要:抽取并简化原文中的重要句子构成文摘。
- 理解式摘要:改写或重新组织原文内容形成最终文摘。
1,抽取式摘要
三个模块
- 句子重要性评估
- 信息冗余句子去重
- 根据长度、字数等约束生成最终摘要。
(1)句子重要性评估的方法
- 启发式规则:例如考虑句子的位子、词频、与比标题的相似度等。
- 机器学习方法:句子分类、最优化方法。
- 图模型方法:TextRank(PageRank的无向图模型)、HITS算法。
下图为用机器学习的方法来对句子的重要性进行分类的图解。
TextRank方法如下:
(2)冗余句子消除
- CSIS
- MMR
2,压缩式摘要
核心模块:句子压缩
- 可视为树的精简问题。
- 可视为01序列标注问题。
3,理解式摘要
(1)改写或重新组织原文内容形成文摘
例如AMR方法
(2)基于谓词论元结构的理解式摘要
核心思想:选择并重组概念与行为。
(3)端到端的摘要方法
代表系统有:
- 哈佛大学的OpenNMT
- 斯坦福大学的Seq2Seq摘要模型,包含了copy机制和coverage机制。
四,文本摘要评价
自动评价
- ROUGE
- BE
人工评价