细粒度文本分类相关论文推荐

导读

前一段时间在研究实体识别的任务,因为标签的设计觉得细粒度文本分类应该会对任务的效果有所提升,于是搜集了一些细粒度文本分类的论文,本文将是对这些论文的总结和思考。本文将简单介绍论文中模型的结构和设计思路,具体的一些细节在之前的文章中我们有详细介绍,如果有兴趣大家可以点击相关链接。

背景

实体分类是对一篇文章中的实体进行分类的任务,例如"《秘密森林》由韩国演员曹承佑和裴斗娜主演"中曹承佑作为实体的标签就是"演员"。实体分类通常会在关系抽取,机器翻译,知识问答等任务中起到关键作用。目前比较常见的有关NER的任务针对的标签基本都小于20个,标签之间基本是比较互斥的,例如person,organization,place等。但是对于关系抽取等任务来说,细粒度的实体标签有助于效果的提升,因为细粒度的标签可以过滤掉不符合关系限制的实体。

在细粒度实体识别中,由于标签结构的划分,同一个实体可能具有不同的角色,例如下面两句,第一句中曹承佑对于普通观众来说就是一名影视演员,但是第二句中因为提到了他在音乐剧界的地位,这里的曹欧巴很明显就是音乐剧演员。

  • 曹承佑这几年演技一直在线,可惜颜值不复当年

  • 曹承佑是韩国音乐剧排名第一的代表人物

因为同一个实体在不同的语境中可能会具有不同的角色,细粒度实体分类的困难也是很明显的,一是在训练样本中噪音比较多,因为通过规则标注的样本很难准确判定出同一个实体在不同的语境中的角色,二是如果为了保证样本的准确率使用人工标注,那么成本将会非常高。

为了解决这些问题,常见的FETC任务通常会将借鉴自动标注算法WSABIE并将关注的实体和上下文以及标签映射到同一个低维空间,然后设计不同的神经网络进行计算,在选择标签的时候常见的方法有使用softmax+阈值的方法,如果为了考虑标签类型的一致性,部分论文会采用自顶向下的搜索模式。下面我们来介绍FETC任务中比较经典的几篇论文。

相关论文推荐

1. WSABIE

  • 论文链接:https://www.mendeley.com/catalogue/a72eb3e5-0342-3d59-9c4c-49814de48695/

这个算法是一个通用的打标签算法,对于WSABIE算法来说打标签的过程就是计算标签和当前对象的相似性的过程,因此WSABIE会将标签和当前对象映射到一个公用的低维空间当前对象的标签就是和他相似度比较高的那一个或者一堆标签。

细粒度文本分类相关论文推荐

2. Embedding Methods for Fine Grained Entity Type Classification

这篇论文发布于2015年ACL,论文的灵感来自于WSABIE算法,为了平衡细粒度标签之间的关系,将输入的文本信息和标签信息全都映射到一个低维空间。 映射方法如下图所示,我们对输入的文本信息和标签进行线性转换,将其映射到同一个低维空间。这样,标签之间的关系可以通过他们在低维空间的距离进行衡量,标签越不相关,那么他们的距离越远。对于本文任务的标签具有层级结构,一个实体有可能具有多个标签,因此如果只是单纯的选top1那么会伤害模型预测的正确性。因此本文选择top k作为正确的标签,k是标签的深度。所在预测过程中我们会设置一个阈值当s(x,y)大于这个阈值则认为标签是正确的。同时最后输出的时候我们会将和其他标签不是同一个类别的标签丢掉认为这是不合理的预测,例如person,artist和location,我们会认为location是不合理的预测。

细粒度文本分类相关论文推荐

3. Fine-Grained Entity Type Classification by Jointly Learning Representations and Label Embeddings

本文发布于2017年ACL。相比于上一篇我们的介绍的论文,本文采用了深度学习的方法,模型结构如下,文中采用三个Encoder分别对实体的左边的Context和右边的Context和实体进行编码,然后借鉴了WSABIE的思想,将三个Encoder的输出和标签映射到同一个空间计算相似度。loss采用Hinge Loss。在预测实体的概率时文中采用递归的方式,自顶向下进行预测。从跟节点出发,先选择概率最大的一级分类,然后选择概率最大的二级分类以此类推。例如"曹承佑一袭黑色的西装出席了音乐大赏活动"我们现在一级标签中选择概率最高的person然后在选择二级标签中概率最高的actor。

细粒度文本分类相关论文推荐

4. Fine-grained Entity Typing through Increased Discourse Context and Adaptive Classification Thresholds

本文发布于2018年ACL。本文的模型结构如下所示,思路和上文类似,都是对文本的上下文进行Encoder然后对Encoder的输出进行分类。不同于上文的是本文加入了文章级别的Encoder和句子级别的Encoder,更加详细的考虑了实体的上下文信息。但是唯一遗憾的是在分类的处理上只采用了logistic regression和阈值,并没有考虑到标签的层次结构和噪音的问题。

细粒度文本分类相关论文推荐

5. HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization

本文发布于2018年ACL,这篇文章使用了NLP中非常流行预训练+Finetune的思想,文中分类的模型结构采用比较经典的Text-CNN结构,输入是短文本sentence,sentence由词向量拼接而成,文中使用的是fasttext,接着使用卷积核为w的卷积层提取sentence的特征,然后添加max-pooling层,将这些池化层的的结果拼接然后经过全连接层和dropout得到上层标签[A,B,...]的概率,loss采用交叉熵。对于下层标签的预测文中的思路是在上层标签的预测中模型已经学到了通用的特征,但是深层layer应该去学习原始数据集中比较详细的信息 因此文中对embedding和卷积层参数保持不变,在这个基础上进行微调学习,这一步标签也由[A,B]变为[A1,A2,B1,B2]

细粒度文本分类相关论文推荐

6. Neural Fine-Grained Entity Type Classification with Hierarchy-Aware Loss

这篇论文发布与2018年NAACL,文中模型的输入被分成了三部分,文中的实体的左右部分的上下文分别采用LSTM Encoder,对LSTM的输出加了一层**层,softmax层然后再做一次线性转换。实体部分实体的Embedding和句子Embedding相同可以使用Average Encoder即对词向量加权求平均。但是这种方法所包含的信息量较少,为了获取上下文对实体指称的影响,文中截取了一个时间窗口前后的文本段,使用语言模型对实体进行编码。这里的语言模型采用LSTM Encoder。对于3个Encoder的输出文中将其进行拼接然后接入softmax层进行分类。由于任务中标签具有层级结构,文中针对这一特性基于交叉熵设计了Hierarchy-Aware Loss,这也是文章的特色,有兴趣可以点击论文介绍,看我们的详细介绍哟。

细粒度文本分类相关论文推荐

7. Put It Back: Entity Typing with Language Model Enhancement

本文发布于2018年ACL,文章借鉴了WSABIE模型的思想,认为标签中也具有文本的信息,标签和上下文的信息也应该具有一致性。例如:曹承佑这几年演技一直在线,可惜颜值不复当年,这句话曹承佑的标签是电影演员,如果我们用电影演员替换曹承佑得到:电影演员这几年演技一直在线,可惜颜值不复当年,但是如果我们使用错误的标签替换曹承佑那么这句话的含义就不如正确的标签通顺,例如:运动员这几年演技一直在线,可惜颜值不复当年。

基于这样的假设文中提出如下的模型。Entity typing模型对模型及上下文进行编码,具体的细节可以参考我们上方的链接,对于预测的标签y进行映射,将其映射到和实体同样的空间,然后将该向量替换实体的向量,带入原来的上下文,输入LSTM Encoder进行预测。

细粒度文本分类相关论文推荐

结语和思考

以上就是我最近关于FETC任务相关论文的阅读和思考,细粒度文本分类这个任务并不常见,目前论文也基本集中于前Bert时代,思路大都是使用Language Model对实体和实体的上下文编码,对输出结果一般有两种方法:一种是经过softmax或者其他方式设置一个阈值进行分类,另一种是将结果和标签映射到同一个空间,计算相似度。

针对FETC任务中标签具有层级结构继承性的特点,文中对LOSS的设计和分类的确定都做了相应的调整,大概的思路就是:自顶向下,在确定了一级标签之后再逐次确定二级标签,同时保证路径一致性,如果确定了子标签A那么从根节点到该节点A的路径上的分类都要在loss和分类中有所体现。

不过在Bert横空出世之后,大家对于这个任务的关注似乎少了很多,查了一些资料只看到一些水论文,这里就不再继续介绍啦~有兴趣大家可以搜索一下。以上就是我对FETC任务的研究和理解啦~希望有兴趣的同学来找我讨论哟~

本文同步发布于公众号阿黎投喂社:一只沉迷吃喝渴望变强的代码仔,关注阿黎看阿黎是怎么变强(秃)的吧~

细粒度文本分类相关论文推荐