论文解读:Graph Convolutional Networks for Text Classifification
论文解读:Graph Convolutional Networks for Text Classifification
先前的文本分类方法是基于CNN或RNN进行的,只能单独的对文本自身的上下文进行语义提取,而不能够对文本之间的相关信息进行表示。随着图结构在NLP领域的大放光彩,将图引入文本分类是新的思路。
一、简要信息
序号 | 属性 | 值 |
---|---|---|
1 | 模型名称 | Text-GCN |
2 | 所属领域 | 自然语言处理 |
3 | 研究内容 | 文本分类 |
4 | 核心内容 | Text Classification, Graph Convolutional Network |
5 | GitHub源码 | https://github.com/yao8839836/text_gcn |
6 | 论文PDF | https://arxiv.org/pdf/1809.05679v1 |
7 | 引用(GBT7714) | Liu X , You X , Zhang X , et al. Tensor Graph Convolutional Networks for Text Classification[J]. World Wide Web, 2020(Aug). |
8 | 引用(BibTex) | @article{Liu2020Tensor,title={Tensor Graph Convolutional Networks for Text Classification},author={Liu, Xien and You, Xinxin and Zhang, Xiao and Wu, Ji and Lv, Ping},journal={World Wide Web},number={Aug},year={2020}} |
二、任务描述
给定一个语料, 首先通过词共现统计方法构建一个图,记做 ,其中 表示图中的结点,可以是单词,也可以是文档; 则表示边。只定义(文档-单词)和(单词-单词)之间的边。因此文本翻译可以建模成结点分类(node classification)
三、方法详细介绍:
3.1 构建图结构文本语料
构建图包括几个步骤:
(1)首先对于所有单词生成词表,该词表中每个独立的单词可以作为图中的结点。其次整个文档也可以作为结点,因此,图包含单词级别和文档级别两种类型的结点,因此该图是heterogeneous的。初始化的时候,每个单词使用独热编码来表示(不使用预训练词向量),因此可以表示为单位矩阵;
(2)接下来主要重点是如何定义边。作者只定义两种类型的边,一种是(文档-单词),一种是(单词-单词)。(文档-单词)可以使用TF-IDF进行度量。假设第i个单词和第j个文档, 其中TF表示单词i在文档j中的共现次数,IDF则表示包含单词i的所有文档的对数表示。TF-IDF=TF*IDF。通过进行归一化可以得到单词i与文档j的边权;
(3)另一个则是(单词-单词),作者使用PMI指数。首先定义一个滑动窗口W,其在文档上进行滑动,#W表示文档j上滑动窗口的个数,#W(i)表示所有滑动窗口中包含单词i的个数, #W(i,k)则是同时包含单词i,k的窗口个数,因此可得到PMI指数,如图所示:
(4)作者定义了矩阵A表示邻接矩阵,其中权重Aij定义如下:
当结点分别为单词和文档时,使用TF-IDF;当都是单词时,使用PMI,如果两个结点相同(矩阵的对角线)则定义为1,否则为0。
3.2 图卷积网络
得到了邻接矩阵,则可以得到预处理的矩阵 ,其中 表示度矩阵。根据图卷积网络定义,作者使用两层卷积操作:
loss表示的是所有文档 在所有类 下的交叉熵,定义如下:
主要创新点:
- 第一个将图网络引入文本分类的方法;
- 考虑到了文档与单词,单词与单词之间的相关性;
- 无须预训练词向量以及引入额外知识条件下依然达到了SOTA效果
可以改进的点:
- 因为只考虑到共现度方面的信息,因此语义方面很低,如果事先预训练可能效果更好,但这违背作者认为的第三个创新点;
- 可能会受到长尾问题的影响,因此可以使用注意力来辅助提升。
参考文献:
[1] Fastgcn: Fast learning with graph convolutional networks via importance sampling
[2] Semi-supervised classifification with graph convolutional networks