【文献回顾】『文本自动摘要』相关文献综述
文献回顾——『文本自动摘要』
前言
在大四毕设选题时,我选到了『在线评论信息的自动摘要技术研究』的题目。因此,我决定在此记录所读的每一篇文献的思路及方法,一方面用于理清每篇文章的思路,另一方面便于日后写论文中的文献综述部分。
此后,随着研究的深入,我会将毕设所用的思路及代码实现进行分享。
自动摘要概述
目的:将大量的文本用简短的语句进行快速表达,保留关键信息。
方法:自动摘要问题按照文档数量来说可以分成单文本摘要和多文本摘要。按照提取方式来分,可以分为抽取式(extractive)和生成式(abstractive)。
-
抽取式按照一定的规则,给句子进行评分,找出文档中关键的句子,最后汇总形成文档摘要。抽取式摘要存在语义不通顺、表意不清等问题。
-
生成式则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。生成式摘要更符合人类的认知习惯,语句通顺,语义清晰。
相关技术:自然语言处理、主题模型、seq2seq、注意力机制
自然语言处理相关文献
(一)融合主题词嵌入和网络结构分析的主题关键词提取方法
主要方法:词向量(Word2Vec) + 主题模型(LDA) + 关键词网络分析
这篇文献提供了一种 关键词提取 的思路:
-
首先利用 LDA 对于数据集的主题进行初步提取,生成 主题 - 词 (m×n) 矩阵;
-
接着,用 Word2Vec 训练数据集,得到词向量模型;
-
For each t in Topic (m):
-
For each w in KeyWords (n):
-
利用生成的词向量模型,用余弦法计算该主题下词与词的相似度,作为两点之间的权重;
-
设置阈值,过滤掉权重较低的词关系,其余的两两词之间连成一条边;
-
利用 PageRank 方法进行迭代,最后输出 PR 值最高的 TopN 个词作为该主题下的关键词。
-
-
总结:先用 LDA 方法初步选择出主题及其词分布,接着将每个主题下的词表示为词向量,用相似性表示词与词之间的权重,最后用 PageRank 方法对于主题下的关键词进行二次过滤。
抽取式摘要相关文献
(一)Opinion mining from online hotel reviews – A text summarization approach