《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling 阅读笔记

本文提出了一种新的面向对象和意见词提取序列标记子任务(TOWE),针对给定的意见目标提取相应的意见词。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

粗略的讲就是,预先构建好一个opinion target的集合,里面存放意见目标,然后通过模型进行匹配相应的意见词,然后把意见目标与意见词成对的提取。

在这里,却显示,预先构建意见目标的集合,还要标注意见目标与意见词之间关系,工作量还是很大的。

1.本文的主要贡献

  1. 本文提出了一种面向目标的意见词提取(TOWE)的序列标记子任务,该子任务可以为ABSA的下游任务提供辅助和可解释性。
  2. 我们设计了一种新的序列标记神经网络模型来执行TOWE。它可以在同一个检查中为不同的目标生成特定于目标的上下文表示。
  3. 构建了来自不同领域的四个数据集,作为未来工作的基准。我们在这些数据集上进行了广泛的实验,结果表明我们的模型可以大大超过各种基线。

2.问题定义

给定一个句子S = { w1 ,w2,…wi,…,wn},它是由一个意见目标和n个词组成的,任务是对句子进行序序列标注,提取面向目标的意见词。本文使用的是人工标注(超级麻烦,后续有改进的论文)。对于句子中的每个单词,应该标记为yi={B,I,O}(B:beginning;I:insid;O:other)。下面给出了一个例子。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记


3.模型

本文提出的模型框架,遵从encoder-decoder。如下图所示

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

3.1encoder部分

首先定义了一个嵌入查找表L∈Rd*|V| 其中,d为嵌入维数,|V|为词汇量,嵌入查找表将S = { w1 ,w2,…wi,…,wn}映射到{ e1 ,e2,…ei,…,en},其中ei∈Rd .

TOWE 的核心挑战是学习特定于目标的上下文表示。将句子分为了三部分,左上下文,目标词,右上下文。
在encoding阶段,用到了三种LSTM

3.1.1 Inward_LSTM

内向的LSTM,他主要遵循了TD-LSTM的设计思想(根据目标之前和之后的上下文分别建模,实际上使用了两个LSTM, 一个是从第一个单词到目标词的左LSTM,一个是从最后一个单词到目标词的右LSTM,因此也被称为双向的LSTM)

获取左上下文表示和右上下文表示:
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
因为在这里目标词{wl+1,…w~r-1}出现过两次,文中简单的对同一单词的两种表示进行平均,得到目标词的单词的表示。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
所以上下文表示为{h1l,…hlL,hl+1LR,hrR,…hnR}

3.1.2 outward-LSTM

inward-LSTM 设计思想:向目标传递上下文。
outward-LSTM设计思想:是把目标信息传递给左右上下文。

方法跟inward-LSTM类似,都是使用两个LSTM,区别是,一个是从目标词向前,还有一个是从目标词向后。

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

3.1.3 IO-LSTM

将上面提到的两种策略结合起来。链接二者的输出。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

3.1.4 IOG:IO-LSTM+Global context

在这里,使用Bi-LSTM获取全局信息,对整个句子进行嵌入e={e1,e2,…,ei,…en}。并且获得全局上下文表示HG.
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
将IO-LSTM和Bi-LSTM获取的信息(全局上下文)结合起来,获得每个单词的最终目标的特定上下文表示(最终的序列表示r融合了目标信息和全局上下文信息):

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
总结一下,encoding阶段主要进行和三个阶段,第一个阶段是向内的LSTM,把上下文信息交给目标。第二个阶段是向外的LSTM,把目标信息交给上下文。第三个阶段是Bi-LSTM,获取全局信息。总的来说,感觉挺繁琐的,而且使用LSTM传递信息效果真的是最好的吗?这个地方感觉可以做点事情。还有就是我还看过一篇改进的论文,他直接使用的Bi-LSTM,效果感觉也还可以,那作者提出的这个模型是不是就太过于繁琐了呢?

3.2 Decoder

给定了序列标识r,我们可以用r来计算 p(y|r),其中y={y1,y2,…yn}是BIO标签序列,在这里yi∈{B,I,O}
论文中提出了两种解码方式。

3.2.1贪婪的encoding

在每个位置上分别表述为一个三分类问题,我们使用softmax计算概率:
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
简单的选择点概率最高的标签。没有考虑标签之间的依赖关系,三十运行的速度最很快。使用负对数似然(NLL)机损一个句子的损失值。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

3.2.2 CRF

第二种是使用条件随机场,考虑邻域之间的相关性,对真个标签序列进行评分。文中使用线性链CRF,将标签序列评分为条件概率。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
在这里Y是所有可能标签序列的集合,得分函数计算如下:

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
其中A计算的是同yi-1到yi之间的转换得分。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

在这里使用负对数计算句子的损失:
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

总结如下,文中提出的两种方法都比较的基础,其中贪婪的encoding,计算速度较快。CRF准确度较高。


4.实验

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
因为作者提出了一个新的子任务,因此定义了几个相对基础的模型进行对比试验。从表中可以看出,准确率有了明显的提升。
第二个表格中作者进行纵向对比以证明自己模型的准确性。