【论文笔记】Continual Relation Learning via Episodic Memory Activation and Reconsolidation

Continual Relation Learning via Episodic Memory Activation and Reconsolidation

Abstract

持续关系学习:不遗忘以前关系的同时继续学习新关系

新关系的出现会忘记旧的关系,虽然有证明在新的关系训练序列中添加遗忘的训练样本可以避免这个问题,但是又容易陷入over-fitting

因此本文根据人类的长期记忆构成,设计了EMAR框架。

1 Introduction

  • OpenRE

  • ContinualRE

Continual RE最大的问题就是 灾难性遗忘,很难在学习新关系的同时避免忘记旧关系。这两个问题都是在开放场景下,pipeline是这样的:

【论文笔记】Continual Relation Learning via Episodic Memory Activation and Reconsolidation

memory-based方法,保留片段记忆,在继续训练新样本的过程中保留一部分以往的训练样本,是一个非常有效的解决灾难性遗忘的问题,但是这种方法依然不能解决过拟合的问题:

当模型在持续关系学习的环境下,会快速的改变以往关系的特征分布,逐渐过拟合于几个记忆中的样本,最终对旧的关系变得疑惑 (我认为这里似乎是想说停留的那一部分以往训练样本会过拟合。虽然不至于灾难性以往,但还是识别率下降了,瞧瞧,科研的话术多么的抽象)

这边有一段丢失了,不写了。包含related work和部分introduction(真烦死了

3 Methodogy

3.1 Task Definition and Overall Framework

持续关系学习在一个序列的任务上训练,每一个任务都有其训练集,验证集和测试集,Relation set。

任务要求模型在第kk个和前k1k-1个上都表现优异,模型会验证全部的测试集。因此,验证过程会越来越难。

片段记忆模块M={M1,M2,...}\mathcal{M}=\{\mathcal{M}_1, \mathcal{M}_2,...\}是一个集合,用于存储历史任务中的一些样例,每一个记忆模块Mk={(x1Mk,y1Mk),...,(xBMk,yBMk)}\mathcal{M}_k = \{(x_1^{\mathcal{M}_k}, y_1^{\mathcal{M}_k}),...,(x_B^{\mathcal{M}_k}, y_B^{\mathcal{M}_k})\}

总之就是包含第kk个任务中的BB个训练样本。BB是constrained memory size。应该是一个比较有效的超参数,相同的情况下,记忆的越少,模型应该越有效果。

【论文笔记】Continual Relation Learning via Episodic Memory Activation and Reconsolidation

模型包含3个步骤来学习新关系并且避免遗忘:

  1. fine-tune encoder,让模型注意新关系的pattern
  2. 对于当前任务的关系集合中的每一个关系,都选去其中最有信息的样例(类似于prototype那种,存储在Mk\mathcal{M}_k中。
  3. 迭代地采用记忆回放和**,以及记忆再合并去学习新关系同时维持旧关系。

3.2 Example Encoder

BiLSTM,用于encode,额外添加了entity的开始和结束position。

3.3 Learning for New Tasks

对应模型fine tune于新任务的新关系,

L(θ)=i=1Nj=1R~kδyiτk=rj×logexp(g(f(xiTk),rj))l=1R~kexp(g(f(xiTk),rl)) \begin{aligned} \mathcal{L}(\boldsymbol{\theta})=-\sum_{i=1}^{N} \sum_{j=1}^{\left|\tilde{\mathcal{R}}_{k}\right|} \delta_{y_{i}^{\tau_{k}}=r_{j}} \times \log \frac{\exp \left(g\left(f\left(x_{i}^{\mathcal{T}_{k}}\right), \boldsymbol{r}_{j}\right)\right)}{\sum_{l=1}^{\left|\tilde{\mathcal{R}}_{k}\right|} \exp \left(g\left(f\left(x_{i}^{\mathcal{T}_{k}}\right), \boldsymbol{r}_{l}\right)\right)} \end{aligned}

  • rj\boldsymbol{r}_j是第jj个关系的embedding(rjR~kr_j \in \tilde{\mathcal{R}}_k。注意R~k\tilde{\mathcal{R}}_k是在执行第kk个任务时,所有已知任务的关系合集(包含前面k1k-1个任务中的关系集合。
  • g(,)g(\cdot, \cdot)时计算embedding相似度的。
  • δ\delta时信号函数,当yiTk=rjy_{i}^{\mathcal{T}_{k}}=r_{j} 时成立,为1,其他为0

负对数似然函数嘛,其实就是希望当类别为rjr_j的时刻,其encoder f(xiTk)f(x_i^{\mathcal{T}_k})的embedding与relation embeddingrj\boldsymbol{r}_j 尽可能的接近(相似度为1)并且与其他relation embedding尽可能的相似度为0

对于每一个关系,会随机初始化relation embedding. i.e. rj\boldsymbol{r}_j

3.4 Selecting Examples for Memory

按照上面的整体步骤,对新任务fine tune了之后,要为k+1k+1任务做准备了,留几个训练样例了要。因此选择 informative 和 diverse的examples。尽可能的覆盖这个任务中的关系模式。

在encoding第kk个任务中的examples之后,用K-Means去聚类,聚类中心个数就是上面所说的BB,对每一个聚类来说,选择最接近中心的样本。通过中心点的样本数量以及其本身的关系类别的数量,数量越多显现关系越重要。通过关系的重要程度来分配选择记录关系。

对于重要的关系,至少选取BRk\left\lfloor\frac{B}{\left|\mathcal{R}_{k}\right|}\right\rfloor 个样本,对于不那么重要的,最多选取BRk\left\lceil\frac{B}{\left|\mathcal{R}_{k}\right|}\right\rceil个样本。

有趣的一点,如果任务样本小于BB,那么会填充其他关系的样例。(我猜是历史关系的样例

知道了每一个关系的选择数量之后,再次使用K-Means对类内样本进行聚类。中心数量由上面分配的数量决定的,尽可能选取接近中心点的。

3.5 Replay, Activation and Reconsolidation

最重要的第三步来了。

Computing Prototypes

通过结合所有的在片段记忆之中的样本,得到有完整的记忆M~k=i=1kMi\tilde{\mathcal{M}}_k=\bigcup_{i=1}^{k} \mathcal{M}_{i},然后从中对每一个关系rir_i,获取其全部的样例,把当前关系下的样例的encoded embedding平均一下,就得到了prototype embedding
pi=j=1Pif(xjPi)Pi \boldsymbol{p}_{i}=\frac{\sum_{j=1}^{\left|\mathcal{P}_{i}\right|} f\left(x_{j}^{\mathcal{P}_{i}}\right)}{\left|\mathcal{P}_{i}\right|}

Memory Replay and Activation

所有记忆中的样例M~k\tilde{\mathcal{M}}_k和第kk个任务的样例Tk\mathcal{T}_k合并起来,得到Ak=M~kTk={(x1Ak,y1Ak),,(xMAk,yMAk)}\mathcal{A}_{k}=\tilde{\mathcal{M}}_{k} \cup \mathcal{T}_{k}= \left\{\left(x_{1}^{\mathcal{A}_{k}}, y_{1}^{\mathcal{A}_{k}}\right), \ldots,\left(x_{M}^{\mathcal{A}_{k}}, y_{M}^{\mathcal{A}_{k}}\right)\right\}

持续的**模型去学习新关系和记住就关系。损失函数为:
LA(θ)=i=1Mj=1R~kδyiAk=rj×logexp(g(f(xiAk),rj))l=1R~kexp(g(f(xiAk),rl)) \begin{aligned} \mathcal{L}^{\mathcal{A}}(\boldsymbol{\theta})=-\sum_{i=1}^{M} \sum_{j=1}^{\left|\tilde{\mathcal{R}}_{k}\right|} \delta_{y_{i}^{\mathcal{A}_{k}}=r_{j}} \times \log \frac{\exp \left(g\left(f\left(x_{i}^{\mathcal{A}_{k}}\right), \boldsymbol{r}_{j}\right)\right)}{\sum_{l=1}^{\left|\tilde{\mathcal{R}}_{k}\right|} \exp \left(g\left(f\left(x_{i}^{\mathcal{A}_{k}}\right), \boldsymbol{r}_{l}\right)\right)} \end{aligned}

其实没什么变化,就是训练集合引入了之前记忆中的一些关系。

Memory Reconsolidation

文章主要的重点应该是在此处,reconsolidation

对于每一个已知的关系riR~kr_i \in \tilde{\mathcal{R}}_k采样它的样例集合,其中每一个样本也都是来源于M~k\tilde{\mathcal{M}}_k

LR(θ)=i=1R~kj=1Iilogexp(g(f(xjIi),pi))l=1R~kexp(g(f(xjIi),pl)) \begin{aligned} \mathcal{L}^{\mathcal{R}}(\boldsymbol{\theta}) &=-\sum_{i=1}^{\left|\tilde{\mathcal{R}}_{k}\right|} \sum_{j=1}^{\left|\mathcal{I}_{i}\right|} \\ \log & \frac{\exp \left(g\left(f\left(x_{j}^{\mathcal{I}_{i}}\right), \boldsymbol{p}_{i}\right)\right)}{\sum_{l=1}^{\left|\tilde{\mathcal{R}}_{k}\right|} \exp \left(g\left(f\left(x_{j}^{\mathcal{I}_{i}}\right), \boldsymbol{p}_{l}\right)\right)} \end{aligned}

其中pl\boldsymbol{p}_l是 prototype embedding。通过上面的公式计算出来的

3.6 Training and Prediction

对于第kk个任务,首先使用L(θ)\mathcal{L}(\boldsymbol{\theta}) 优化几个epoch。

然后迭代优化LA(θ)\mathcal{L}^{\mathcal{A}}(\boldsymbol{\theta})LB(θ)\mathcal{L}^{\mathcal{B}}(\boldsymbol{\theta}) 直到拟合

这就牛了,由于文章的核心思想,其实主要就是想突出在片段记忆的时刻,对人脑来说,记忆很容易被修改和删除。但是通过这样采样迭代训练的方式,让之前的relation和现在的relation都达到一个比较稳定的状态,难怪作者会说stable的情况下开始下一个任务。

在完成第kk个任务之后,对于每一个关系,抽取出一个样例数量为SS的集合称为Ei\mathcal{E}_i,计算最终的关系prototype如下:
p~i=ri+j=1Sf(xjEi)1+S \tilde{\boldsymbol{p}}_{i}=\frac{\boldsymbol{r}_{i}+\sum_{j=1}^{S} f\left(x_{j}^{\mathcal{E}_{i}}\right)}{1+S}

所以在最终的预测中,只需要将instance放进来,和prototype的关系进行对比就可以了。

结果可以看下表:

【论文笔记】Continual Relation Learning via Episodic Memory Activation and Reconsolidation

4 Experiments

Datasets and Experimental Settings

文章一共准备了三个数据集

  • FewRel: 80个关系分成10个task (自家出品,稳定涨引用)

  • SimpleQuestions: knowledge base 数据集 分成了20个task

  • TACRED: 42中关系分成10中数据集。其中删除掉了n/a 类型的关系

【论文笔记】Continual Relation Learning via Episodic Memory Activation and Reconsolidation

Average Performance可以看到 EMAR在随着任务增加的情况下,性能还是比较稳定的,那个紫色的叫EWC,大家做实验的时候,一定要带上它。

这边设计的比较巧妙,比较了:

  • whole performance,就是经过了所有的task之后最终的evaluation。
  • average performance,就是平均了所有看见过的task的性能。这一个方法会严重的突出遗忘的问题。

任务的顺序这些也会影响性能,所有作者用了相当多一样的setting来使得对照非常的公平,大部分都参照了 continual relation learning的第一篇文章:

Sentence Embedding Alignment for Lifelong Relation Extraction

Effect of Memory Size

表格结果如下:

【论文笔记】Continual Relation Learning via Episodic Memory Activation and Reconsolidation

记忆单元的增加有效的提升模型性能

Effect of Prototypes and Reconsolidation

这一部分主要强调了学的prototype和feature非常有用,使用SVM决策效果更好。图与表格如下

【论文笔记】Continual Relation Learning via Episodic Memory Activation and Reconsolidation

【论文笔记】Continual Relation Learning via Episodic Memory Activation and Reconsolidation