2017emnlp-Author-aware Aspect Topic Sentiment Model to Retrieve Supporting Opinions from Reviews阅读笔记
这个感觉比较有用的是结合了语境的信息
Abstract
用户关于产品的评论是非常多样化甚至自相矛盾的,这就造成了用户难以确认一条评论是否可信。我们研究了在评论中寻找支持观点的问题,我们提出了一个SURF的架构,这个架构首先识别在评论中的观点表达,然后在其他的评论中发现相似的观点。我们设计了一种新的概率图形模型, 它将观点作为一个由主题和情绪维度的组合构成的aspect来捕获, 同时考虑到个别作者的喜好, 以及被审查的实体的质量, 并对在评论中通过在连续的评审段中动态地约束方面分布的思想这个流程进行编码。我们的想法来源于一个考虑了词汇和语义上的相似性来找到支持的观点相似度评估。我们的实验在TripAdvisor hotel reviews 和 Yelp restaurant reviews 数据集上进行。实验结果表示我们的方法胜过现有方法,并且这个架构能有效率的发现支持观点。
Introduction
当一个顾客查看评论时,需要知道评论的情况是偶然经历还是常态,但是人工去查看那么多的评论是不可能的。因此本文的工作就是找到支持观点。这是很有用的工作,能够帮助用户就他们关心的问题上找到恰当的评论。
一个评论是由多个句子组成的,每个句子由多个由标点符号和连词分割的片段组成。每一个片段都表达了一种观点, 可以表示为一个aspect、topic和sentiment的结合。一个aspect指的是片段整体的主题,一个topic指的是一个特定主体或者被讨论的问题,sentiment是指对于每个topic的情感,可能是neutral, positive 或者 negative ,例句如下
给定一个观点(in a target segment) ,我们说一个评论支持这个观点的条件是这个评论包含了一些segment的aspect, topic 和 sentiment 与target segment是相似的。发现这样的支持观点是困难的,因为评论是短的非结构化文本并且主题的范围太广。
主题模型已被广泛地应用于在主题中组合词来减少海量词汇的影响。然而, 主题模型的基本假设是主题的独立性, 即使在同一文档中也是如此。这不能捕捉在评论中存在的自然一致性, 这个一致性是指很少包括孤立的、无关的句子, 而是由组合的、结构化的和连贯的句子组组成 (Hovy, 1993)。我们观察到, 作者在撰写评论时的思路通常是线性的, 也就是说, 他或她将在移动到下一个方面之前完成讨论的一个方面。在图1中, 我们看到用户第一次评论服务 ("前台员工很亲切"), 然后是地点方面, 接着是对食物的评论, 最后搬到了房间。这表明, 评论中讨论的aspect不是从一个简单的独立混合物中选择的, 而是, 近距离的单词倾向于讨论相同的方面, 在评论中, 当前部分讨论的aspect将影响到下一个aspect的片段。
我们通过使用一个特定的马尔可夫链来约束aspect线段之间的过渡, 从而明确地对此进行建模。假设每个片段都讨论了一个单一的aspect, 而片段的可能的aspect则依赖于前面各个片段的aspect。通过跟踪前段的各个aspect, 我们能够确保对评论结构进行精确建模的约束aspect取样。这种非迭代性质的论述没有被现有的工作考虑到。
对于观点建模,捕获一个aspect的情感表达是很重要的,但是现有的工作(Kim et al., 2013; Jo and Oh, 2011; Moghaddam and Ester, 2011; Wang et al., 2010; Titov and McDonald, 2008a,b) 没有考虑到作者的偏好,或者对于aspect的实体的内在质量。比如说对于酒店服务的评论,依赖于酒店服务的标准和作者对酒店服务的期待值。我们建立情感分布时同时考虑了实体和作者两方面。
我们提出了Author-aware Aspect Topic Sentiment model (Author-ATS) 来捕获这些不同的观点,考虑了作者的偏好和思考模式。模型考虑一个词是由aspect, topic 和sentiment 的层次生成, 并编码评论的连贯结构属性通过动态约束aspect的分布。我们还建立了一个无参数的基于Dirichlet Process的Author-ATS版本, 叫做 Author-ATS (DP) 。
我们建立了一个支撑评论架构(SURF ),这个架构利用Author-ATS 模型来计算一个观点在target segment 和那些在评论语料中的观点的词汇和语义的相似度,并且返回前k个支持评论。实验表明SURF在发现支持观点上优于基于关键字的方法和基于相似度评估的词向量。据我们所知,这是第一个在用户生成的内容中对于观点表达发现支持评论的方法。
Experiments
我们执行了两方面的实验来评估我们的架构,分别对Author-ATS 和SURF进行评估
数据集:
TripAdvisor hotel reviews
Yelp restaurant reviews
预处理:移去领域独立的停用词,保留一些否定的停用词(e.g.: not, can’t, didn’t) 并且将他们与下一个词组合(so that ‘not good’ is treated as a single unit) 来帮助情感极性的发现。我们用常见的标点符号(‘.’, ‘?’, ‘!’ )来切分句子。为了进一步把句子切分成segments ,我们使用用于从句的标点符号(‘,’, ‘;’ )和连词(‘and’, ‘however’, ‘but ’)来作为分割器。我们使用一个领域独立的主观词典来初始化情绪分布。由于aspect词很可能由高度共现的词汇组成(e.g. ‘front-desk’, ‘walking distance’ ),我们用点互信息(Pointwise Mutual Information (PMI) )来发现这样的搭配。
为了让发现的aspect易于理解并且更直观,我们在模型中加入了少量的种子词,这些种子词仅仅在初始化中使用,随后的Gibbs sampling 迭代不依赖于种子词。下面是aspect种子词在两个领域的使用情况。
5.1 Evaluation of Author-ATS Model
在实验设置中,我们评估了Author-ATS捕获评论中观点的能力。
Perplexity 来源于不可视的测试数据的可能性, 是评价主题模型的标准措施。越低的Perplexity , 越不混淆的模式是可视的新的数据, 意味着更好的泛化能力。我们与以下最先进的意见模型进行了比较。
比较模型:
LDA (Blei et al., 2003) :关于意见的主题模型,从潜在的主题维度生成单词
TAM (Paul and Girju, 2010):关于意见的主题模型,从两个层次的方面和主题生成单词
JTV (Trabelsi and Zaiane, 2014):主题模型, 特别针对有争议的文档, 每个单词都有一个主题和一个观点。
我们还基于三级的方面-主题-情绪层次结构, 实现了一个基线模型 ATS。我们使用这个模型来显示性能增益, 通过只考虑到这些维度之间的层次依赖性捕获意见。对于Author-ATS 和 ATS , 我们使用6个方面, 每个方面为5 个主题和3情绪。为了进行公平的比较, 我们在模型中保持尽可能接近的维度的总数量。我们将数据集划分为训练 (80%) 和测试 (20%) 集, 并报告五倍的交叉验证结果。
表4显示了由于它的词的层次化建模, ATS 在两个数据集中都优于其他模型。Author-ATS 通过对作者、实体特征以及作者思维模式的思考, 进一步提高了其性能。我们注意到, 非参数模型的性能与 AuthorATS 可比, 使得在任何新的领域都能更容易地使用该模型, 而无需事先掌握大量知识。
表5 显示了通过Author-ATS 抽取的前几个领域停用词单词,这些词不表达任何aspect 信息,他们是领域独立的并且没有在目前的停用词典中发现。
在表6中我们发现主要的几个单词被正确的聚类到aspect以及specific topics 中,比如,aspect“Room”中的第一个主题是关于入住体验的(‘bed’,‘king-size’,‘view’) ,二第二个主题是关于浴室的(‘shower’, ‘towels’, ‘tub’). 我们还观察到, 模型能够获得语境的情感术语, 这是aspect的一致性。例如,由于他们使用的上下文, 诸如‘noise’, ‘night’, ‘hear’ 等词可以被分配给aspect“Room”的主题0的负面情绪标签, 当描述一个房间, 这些话可能表明一个嘈杂的房间困扰他们晚上睡觉。
Impact of Seed Words
种子词的影响如下,我们用前n个词中发现aspect的比例来评估(p@n ),通过对种子词的所有组合的平均值 (m 是所选种子词数,2 ≤ m ≤ 6. ), 得到了不同aspect的上 n 个词的平均精度,如表4,平均精度随种子的增加而增加,并在m>=4时稳定。这表明, 提供一小部分种子词可以为发现预期的、可辩明的领域特定方面做了很长的路。
5.2 Evaluation of SURF
我们现在评估Author-ATS 模型和 LSS 措施检索与目标句子相关的句子。如果句子的表达类似于目标句子, 则被认为是相关的。一个具有多个aspect的句子, 如果它至少表达一个在目标句中观点, 则是相关的。前k个答案的精确度由三个评审者手动确定, 冲突由多数投票解决
接下来比较SURF