如何理解用户评论中的细粒度情感？面向目标的观点词抽取

「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会（SMP）联合发起的论文报道栏目，旨在让国内优质论文得到更多关注和认可。

背景介绍

文本情感分析旨在自动地从非结构化的评论文本中抽取有用的观点信息 [1,2] 。早先的文本情感分析工作主要关注文档级别的情感分析和句子级别的情感分析，采用各种方法来分析评论文档或句子整体的情感极性（如正面、负面、中性）。

不同于文档 / 句子级情感分析，细粒度情感分析（Aspect-Based Sentiment Analysis，ABSA）的目的在于分析评论文本中商品 / 服务的具体方面（aspect）的情感 [3] 。

举个例子，用户在某条餐厅评论中 “waiters are unfriendly but the pasta is out of this world.”，对 “waiters” 和 “pasta” 两个方面分别表达了负面的情感和正面的情感。普通的文档 / 句子级情感分析并不能完成这种细粒度的分析任务，ABSA 也因此成为近些年情感分析的热点研究问题。

典型的 ABSA 能够帮助分析评论文本中具体方面的情感极性（正面、负面、中性），但无法提供用户在每个方面的具体观点，如上例中 “waiters” 是 “unfriendly” 的，“pasta” 是 “out of this world” 的。显然，这些观点词解释了用户对某些方面产生相应情感的原因。

为此，我们提出了一个新的细粒度情感分析子任务——面向目标的观点词抽取（Target-oriented Opinion Words Extraction，TOWE），旨在从评论文本中抽取出给定目标（target）对应的观点词（opinion words）。

在 TOWE 任务中，目标对象（target）是提前给定的，和 aspect 表达了相同的含义，都是指评论文本中商品/服务的具体方面 / 属性。以上面的句子为例，当给定目标是“waiters”时，TOWE 需要抽取 “unfriendly” 作为 “waiters” 的观点词；当给定目标为 “pasta”，TOWE 则会抽取观点词 “out of this world”。

这个任务有很多潜在的应用，如给出每个方面具体的观点信息从而帮助商家提升相应的服务、自动从评论中生成成对的观点摘要、帮助我们理解评论中用户情感的来源和提升 aspect-level sentiment classification 的性能。

在接下来的章节中，我们首先给出 TOWE 任务的形式化定义以及我们构造的 benchmark 数据集，然后介绍我们在 NAACL19 和 AAAI20 上的两项工作。

NAACL19 “Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling” [4] 这篇工作定义了 TOWE 任务，并且给出一个鲁棒的融合目标信息的神经序列化标注模型。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取

论文标题：Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling

论文来源：NAACL 2019

论文链接：https://www.aclweb.org/anthology/N19-1259

代码链接：https://github.com/NJUNLP/TOWE

考虑到标注大量细粒度情感分析数据是耗时且困难的，AAAI20 中的工作 “Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction” [5] 从迁移学习的角度出发，提出潜在观点迁移网络，从资源丰富的评论情感分类数据中迁移潜在观点知识来辅助提升 TOWE。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取

论文标题：Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction

论文来源：AAAI 2020

论文链接：https://arxiv.org/abs/2001.01989

代码链接：https://github.com/NJUNLP/TOWE

如何理解用户评论中的细粒度情感？面向目标的观点词抽取

任务定义 & 数据集

在评论文本中，一个目标对象可能有多个观点词，如 “dessert are not outstanding but good.” 中 “dessert” 有两个 opinion words，分别是 “not outstanding” 和 “good”。

为了将这种复杂且边界不确定的一对多关系转换成可以解决的问题，我们结合给定的 target，将 TOWE 形式化为一个给定目标的序列标注任务（target-oriented sequence labeling），并按照 {B, I, O} 标注方案标注观点词。

图 1 展示了句子 “waiters are unfriendly but the pasta is out of this world.” 在给定不同 targets 时的标注结果，粗体标出了给定的 targets，斜体表示的是 target 对应的观点词。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲ 图1：TOWE标注样例

我们基于 SemEval14、SemEval15 和 SemEval16 的 ABSA 数据集构造了 TOWE 数据集。原始的 ABSA 数据集只提供 target 和对应情感极性的标注，没有标注 target 对应的观点词。

因此我们手工标注了每个样例中 target 对应的观点词，并删去了没有显性观点词的样例，最终构造出了四个新的数据集。数据集的统计信息如下表所示，“res” 和 “lap” 表示评论文本分别来自餐馆领域（restaurant）和笔记本领域（laptop）：

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲ 表1：TOWE数据集统计信息

如何理解用户评论中的细粒度情感？面向目标的观点词抽取

融合目标信息的神经序列化标注模型

不同于普通的序列化标注任务，TOWE 的难点在于对同一个句子，如果输入的目标对象不同，那么对应标注的观点词也应该不同。

容易想到，问题核心在于如何建模 target 和上下文之间的语义关系，从而得到 target-specific 的文本表示。受模型 TD-LSTM [6] 的启发，我们以 LSTM 作为基础组件，设计了一个融合目标信息的神经序列化标注模型 IOG。

IOG 采用 encoder-decoder 框架，encoder 中包含了三个组件，分别是 Inward-LSTM，Outward-LSTM 和Global LSTM。我们根据目标对象的位置将评论句子分为三个部分：上文、target、下文。

Outward-LSTM 由两个方向相反的 LSTM，从句子中间的目标对象分别向上文和下文建模（自内向外），从而将目标信息传入到它的上下文中，生成 target-specific 的表示。和 Outward-LSTM 相反，Inward-LSTM 采用两个方向向内的 LSTM 分别从句子两端向目标位置编码（自外向内）。

此外，为了弥补切分上下文带来的句子信息的分隔和不完整，我们引入 Global LSTM 来建模句子的整体语义，即用一个普通的 BiLSTM 编码完整的句子表示。最终，我们将 Inward-LSTM，Outward-LSTM 和 Global LSTM 对应位置的表示进行拼接，得到 encoder 的表示。

在 decoder 端，我们使尝试了两种解码策略，一种是在每个位置独立的做三分类，优点是解码速度更快，第二种是使用 CRF 来考虑标签之间的依赖关系。具体模型如图 2 所示。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲ 图2：IOG图例

我们采用 precision、recall 和 F1-score 来衡量不同模型的性能，并建立了一系列 baselines，包括规则方法和神经网络方法，主要实验结果如表 2 所示。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲ 表2：主要实验结果

在上表中，Pipeline 方法表示先用 BiLSTM 做序列化标注，再根据距离规则，将标注结果中离目标最近的观点词作为其对应的结果。TC-BiLSTM 将 target 表示和句子中每个词向量进行拼接，然后用 BiLSTM 编码。

可以看到，我们的方法大幅超过了两个基于规则的算法，表明基于监督学习的序列化标注方法比规则模板要更加鲁棒，更能捕捉复杂的语义信息。

此外，IOG 也大幅超过了没有融入目标信息的模型 BiLSTM 和简单拼接 target 表示的神经序列化标注模型 TC-BiLSTM，这说明我们的模型可以更好地建模目标对象和上下文之间的语义关系，从而学习 target-specific 的文本表示。为了分析模型各个模块的功能，我们也做了模型各个变种的对比实验，具体结果见表 3。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲表3：模型变种实验结果

上表表明，Outward-LSTM 显著优于 Inward-LSTM。这是因为 Outward-LSTM 对于句子中的每个位置生成的都是 target-specific 的表示，而 Inward-LSTM 在多 targets 的句子中，对 targets 外侧的表示是相同的，这意味即使给定 target 不同，这部分的标注结果也是相同的。

Global-LSTM 进一步提升了模型新能，CRF 在这个任务上的提升很微弱。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取

潜在观点迁移网络

如前面提到的，细粒度情感分析的数据标注是复杂且耗时的，因为标注者需要标出评论中所有的目标对象以及它们对应的观点词和情感极性，这导致我们很难获取大规模的标注样本，数据不足严重制约了神经网络模型在 TOWE 任务上的性能。

相比之下，我们很容易从在线评论网站中获取大量的带有情感标签的评论情感分类数据。这些数据中包含了大量的潜在观点信息以及与情感相关的语义模式。因此，我们从迁移学习的角度出发，提出迁移评论情感分类数据中的潜在观点来提升 TOWE 任务的性能。

在迁移之前，有两个挑战需要解决。首先，评论情感分类数据中的观点信息（如观点词）是未标注的，我们需要显示地找出这些潜在的观点信息。其次，评论情感分类只考虑文本整体的情感极性，不涉及具体的目标对象。

因此，在第一步找出全局的观点信息之后，我们需要将其转化成目标相关的观点信息，然后才能融合到 TOWE 任务中。

为了解决迁移过程中的两个挑战，我们设计了一个潜在观点迁移网络（Latent Opinion Transfer Network，LOTN），如图 3 所示。LOTN 主要包含两个模块，左边的模块用来解决 TOWE 任务，右边是预先训练的评论情感分类模块。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取

▲ 图3：LOTN图例

具体而言，我们先在大规模评论情感分类数据集上预训练一个 attention-based BiLSTM 网络，作为预训练的情感分类模型。在预训练的情感分类模型中，注意力机制用来捕获文本中潜在的观点。

可以想到，注意力权重越大的词越有可能是观点词，因此注意力权重可以用来指示潜在的观点词。为了解决上述的第二个挑战，我们设计了一个启发式规则，将情感分类模型中每个词的注意力权重乘以一个与目标对象相关的系数，从而将全局的注意力权重转化成目标相关的注意力权重。

系数大小根据每个词与目标对象之间的距离计算得出，距离目标对象越近的词系数越大。因为根据修饰关系以及语义表达上的相关性，和目标对象越接近的词越有可能是其对应的观点词，观点词出现在较远位置的概率会低很多。

然后，我们通过一个阈值，将目标相关的注意力权重转化成 0/1 分布的潜在观点词标签，并通过辅助学习信号将这些潜在的观点词信息融合到 TOWE 任务中。预训练情感分类模型中的 BiLSTM 层包含着大量情感相关的语义模式，我们也将它拼接到 TOWE 模块的 encoder 中。

为了预训练评论情感分类模型，我们从 Yelp 评论网站和 Amazon 评论网站获取共计 100 万条左右的评论数据。数据集统计信息如下表所示：

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲ 表4：评论情感分类数据统计信息

主要结果如表 5 所示，PE-BiLSTM 是我们基础的 TOWE 模型，即 LOTN 的 base 版本，表示不从情感分类数据集中迁移观点知识。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲ 表5：LOTN和相关模型比较

可以看到，我们的潜在观点迁移网络 LOTN 相对 base 模型 PE-BiLSTM 取得了非常显著的提升。相比于之前的 state-of-the-art IOG，LOTN 也获得了比较明显的提升。我们也测试了迁移 encoder 和迁移潜在观点词对 TOWE 任务带来的性能增益，结果如表 6 所示。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲ 表6：迁移encoder和潜在观点词的影响

相比于 base 模型 PE-BiLSTM，迁移 encoder 或者潜在观点词都获得了明显的性能提升，这表明两种方案都能捕获情感分类数据中潜在的观点信息，并为 TOWE 所用。融合两者之后，结果获得了进一步提升，说明两者从不同角度迁移了观点知识。

为了分析 base 模型 PE-BiLSTM 和最终模型 LOTN 的不足之处，我们在数据集 14res 上进行了错误统计分析，结果见表 7。

“NULL” 表示抽取结果为空，即模型没有抽取任何观点词；“under-extracted” 表示模型只抽取了真实观点词的一部分；“over-extracted” 则表示除真实观点词外模型还抽取了其他的词。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取 ▲ 表7：PE-BiLSTM和LOTN在14res上的错误类型统计

可以看到，在迁移情感分类数据集中的潜在观点知识之后，LOTN 在空预测和 “under-extracted” 上的错误更少，在 “over-extracted” 上的错误变多。这三者一致地表明，在迁移观点的影响下，LOTN 倾向解码出更多的观点词。

实际上，“NULL” 和 “under-extracted” 两类错误都属于抽取不足，表 7 的结果也表明抽取不足可能是 TOWE 任务的主要错误。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取

总结

面向目标的观点词抽取（TOWE）不仅能提供更加细致可解释的观点分析，也能为相关的情感分析任务带来帮助。为了研究它，我们形式化地定义了 TOWE任务，并且给出了四个 benchmark 数据集。

此外，我们就如何有效地融合目标信息以及缓解资源稀缺两个问题上做了初步的尝试。在后续的工作中，如何缓解神经网络模型在 TOWE 上抽取不足、以及如何利用 TOWE 提升其他的情感分析任务仍需进一步探索。

参考链接

[1] Pang, B., and Lee, L. 2008. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval 2(1–2):1–135.

[2] Liu, B. 2012. Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers.

[3] Pontiki, M.; Galanis, D.; Pavlopoulos, J.; Papageorgiou, H.; Androutsopoulos, I.; and Manandhar, S. 2014. Semeval 2014 task 4: Aspect based sentiment analysis. In [email protected] 2014, 27–35.

[4] Fan, Z.; Wu, Z.; Dai, X.; Huang, S.; and Chen, J. 2019. Target-oriented opinion words extraction with target-fused neural sequence labeling. In NAACL-HLT, 2509–2518.

[5] Wu, Z., Zhao, F., Dai, X. Y., Huang, S., & Chen, J. 2020. Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction. In AAAI.

[6] Tang, D.; Qin, B.; Feng, X.; and Liu, T. 2016. Effective lstms for target-dependent sentiment classification. In COLING, 3298–3307.

关于作者

如何理解用户评论中的细粒度情感？面向目标的观点词抽取

吴震，南京大学自然语言处理研究组博士研究生，主要研究方向为情感分析和迁移学习。在国际人工智能会议AAAI以及自然语言处理会议NAACL、NLPCC上共发表论文四篇；曾获2018年CCF大数据与计算智能大赛“汽车行业用户观点主题及情感识别赛题”一等奖（Top1/1701）和CCF最佳创新价值奖；在第八届全国社会媒体处理大会“拓尔思杯”中文隐式情感分析评测任务中获三等奖。

如何理解用户评论中的细粒度情感？面向目标的观点词抽取