文献回顾——『文本自动摘要』

前言

在大四毕设选题时，我选到了『在线评论信息的自动摘要技术研究』的题目。因此，我决定在此记录所读的每一篇文献的思路及方法，一方面用于理清每篇文章的思路，另一方面便于日后写论文中的文献综述部分。

此后，随着研究的深入，我会将毕设所用的思路及代码实现进行分享。

自动摘要概述

目的：将大量的文本用简短的语句进行快速表达，保留关键信息。

方法：自动摘要问题按照文档数量来说可以分成单文本摘要和多文本摘要。按照提取方式来分，可以分为抽取式（extractive）和生成式（abstractive）。

相关技术：自然语言处理、主题模型、seq2seq、注意力机制

（一）融合主题词嵌入和网络结构分析的主题关键词提取方法

主要方法：词向量(Word2Vec) + 主题模型(LDA) + 关键词网络分析

这篇文献提供了一种 关键词提取 的思路：

首先利用 LDA 对于数据集的主题进行初步提取，生成 主题 - 词 (m×n) 矩阵；
接着，用 Word2Vec 训练数据集，得到词向量模型；
For each t in Topic (m)：
- For each w in KeyWords (n)：
  - 利用生成的词向量模型，用余弦法计算该主题下词与词的相似度，作为两点之间的权重；
  - 设置阈值，过滤掉权重较低的词关系，其余的两两词之间连成一条边；
  - 利用 PageRank 方法进行迭代，最后输出 PR 值最高的 TopN 个词作为该主题下的关键词。

【文献回顾】『文本自动摘要』相关文献综述

总结：先用 LDA 方法初步选择出主题及其词分布，接着将每个主题下的词表示为词向量，用相似性表示词与词之间的权重，最后用 PageRank 方法对于主题下的关键词进行二次过滤。

（一）Opinion mining from online hotel reviews – A text summarization approach