《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling 阅读笔记

本文提出了一种新的面向对象和意见词提取序列标记子任务（TOWE），针对给定的意见目标提取相应的意见词。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

粗略的讲就是，预先构建好一个opinion target的集合，里面存放意见目标，然后通过模型进行匹配相应的意见词，然后把意见目标与意见词成对的提取。

在这里，却显示，预先构建意见目标的集合，还要标注意见目标与意见词之间关系，工作量还是很大的。

1.本文的主要贡献

本文提出了一种面向目标的意见词提取(TOWE)的序列标记子任务，该子任务可以为ABSA的下游任务提供辅助和可解释性。
我们设计了一种新的序列标记神经网络模型来执行TOWE。它可以在同一个检查中为不同的目标生成特定于目标的上下文表示。
构建了来自不同领域的四个数据集，作为未来工作的基准。我们在这些数据集上进行了广泛的实验，结果表明我们的模型可以大大超过各种基线。

2.问题定义

给定一个句子S = { w₁ ,w₂,…w_i,…,w_n}，它是由一个意见目标和n个词组成的，任务是对句子进行序序列标注，提取面向目标的意见词。本文使用的是人工标注（超级麻烦，后续有改进的论文）。对于句子中的每个单词，应该标记为y_i={B,I,O}(B:beginning;I:insid;O:other)。下面给出了一个例子。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

3.模型

本文提出的模型框架，遵从encoder-decoder。如下图所示

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

3.1encoder部分

首先定义了一个嵌入查找表L∈R^d*|V| 其中，d为嵌入维数，|V|为词汇量，嵌入查找表将S = { w₁ ,w₂,…w_i,…,w_n}映射到{ e₁ ,e₂,…e_i,…,e_n}，其中e_i∈R^d .

TOWE 的核心挑战是学习特定于目标的上下文表示。将句子分为了三部分，左上下文，目标词，右上下文。
在encoding阶段，用到了三种LSTM

3.1.1 Inward_LSTM

内向的LSTM，他主要遵循了TD-LSTM的设计思想（根据目标之前和之后的上下文分别建模，实际上使用了两个LSTM，一个是从第一个单词到目标词的左LSTM，一个是从最后一个单词到目标词的右LSTM，因此也被称为双向的LSTM）

获取左上下文表示和右上下文表示：
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
因为在这里目标词{w_l+1,…w~r-1}出现过两次，文中简单的对同一单词的两种表示进行平均，得到目标词的单词的表示。

所以上下文表示为{h₁^l,…h_l^L,h_l+1^LR,h_r^R,…h_n^R}

3.1.2 outward-LSTM

inward-LSTM 设计思想：向目标传递上下文。
outward-LSTM设计思想：是把目标信息传递给左右上下文。

方法跟inward-LSTM类似，都是使用两个LSTM，区别是，一个是从目标词向前，还有一个是从目标词向后。

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

3.1.3 IO-LSTM

将上面提到的两种策略结合起来。链接二者的输出。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

3.1.4 IOG：IO-LSTM+Global context

在这里，使用Bi-LSTM获取全局信息，对整个句子进行嵌入e={e₁,e₂,…,e_i,…e_n}。并且获得全局上下文表示H^G.
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
将IO-LSTM和Bi-LSTM获取的信息（全局上下文）结合起来，获得每个单词的最终目标的特定上下文表示（最终的序列表示r融合了目标信息和全局上下文信息）：

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
总结一下，encoding阶段主要进行和三个阶段，第一个阶段是向内的LSTM，把上下文信息交给目标。第二个阶段是向外的LSTM，把目标信息交给上下文。第三个阶段是Bi-LSTM，获取全局信息。总的来说，感觉挺繁琐的，而且使用LSTM传递信息效果真的是最好的吗？这个地方感觉可以做点事情。还有就是我还看过一篇改进的论文，他直接使用的Bi-LSTM，效果感觉也还可以，那作者提出的这个模型是不是就太过于繁琐了呢？

3.2 Decoder

给定了序列标识r，我们可以用r来计算 p(y|r)，其中y={y₁,y₂,…y_n}是BIO标签序列，在这里yⁱ∈{B,I,O}
论文中提出了两种解码方式。

3.2.1贪婪的encoding

在每个位置上分别表述为一个三分类问题，我们使用softmax计算概率：
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
简单的选择点概率最高的标签。没有考虑标签之间的依赖关系，三十运行的速度最很快。使用负对数似然（NLL）机损一个句子的损失值。

3.2.2 CRF

第二种是使用条件随机场，考虑邻域之间的相关性，对真个标签序列进行评分。文中使用线性链CRF，将标签序列评分为条件概率。
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
在这里Y是所有可能标签序列的集合，得分函数计算如下：

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
其中A计算的是同y_i-1到y_i之间的转换得分。

在这里使用负对数计算句子的损失：
《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记

总结如下，文中提出的两种方法都比较的基础，其中贪婪的encoding，计算速度较快。CRF准确度较高。

4.实验

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记
因为作者提出了一个新的子任务，因此定义了几个相对基础的模型进行对比试验。从表中可以看出，准确率有了明显的提升。
第二个表格中作者进行纵向对比以证明自己模型的准确性。

《Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling》阅读笔记