论文解读:Graph Convolutional Networks for Text Classifification

论文解读:Graph Convolutional Networks for Text Classifification

  先前的文本分类方法是基于CNN或RNN进行的,只能单独的对文本自身的上下文进行语义提取,而不能够对文本之间的相关信息进行表示。随着图结构在NLP领域的大放光彩,将图引入文本分类是新的思路。


一、简要信息

序号 属性
1 模型名称 Text-GCN
2 所属领域 自然语言处理
3 研究内容 文本分类
4 核心内容 Text Classification, Graph Convolutional Network
5 GitHub源码 https://github.com/yao8839836/text_gcn
6 论文PDF https://arxiv.org/pdf/1809.05679v1
7 引用(GBT7714) Liu X , You X , Zhang X , et al. Tensor Graph Convolutional Networks for Text Classification[J]. World Wide Web, 2020(Aug).
8 引用(BibTex) @article{Liu2020Tensor,title={Tensor Graph Convolutional Networks for Text Classification},author={Liu, Xien and You, Xinxin and Zhang, Xiao and Wu, Ji and Lv, Ping},journal={World Wide Web},number={Aug},year={2020}}

二、任务描述

  给定一个语料, 首先通过词共现统计方法构建一个图,记做 G=(V,E)G=(V,E),其中 VV 表示图中的结点,可以是单词,也可以是文档;EE 则表示边。只定义(文档-单词)和(单词-单词)之间的边。因此文本翻译可以建模成结点分类(node classification)

三、方法详细介绍:

论文解读:Graph Convolutional Networks for Text Classifification

3.1 构建图结构文本语料

  构建图包括几个步骤:
  (1)首先对于所有单词生成词表,该词表中每个独立的单词可以作为图中的结点。其次整个文档也可以作为结点,因此,图包含单词级别和文档级别两种类型的结点,因此该图是heterogeneous的。初始化的时候,每个单词使用独热编码来表示(不使用预训练词向量),因此可以表示为单位矩阵X=IX=I
  (2)接下来主要重点是如何定义边。作者只定义两种类型的边,一种是(文档-单词),一种是(单词-单词)。(文档-单词)可以使用TF-IDF进行度量。假设第i个单词和第j个文档, 其中TF表示单词i在文档j中的共现次数,IDF则表示包含单词i的所有文档的对数表示。TF-IDF=TF*IDF。通过进行归一化可以得到单词i与文档j的边权;
  (3)另一个则是(单词-单词),作者使用PMI指数。首先定义一个滑动窗口W,其在文档上进行滑动,#W表示文档j上滑动窗口的个数,#W(i)表示所有滑动窗口中包含单词i的个数, #W(i,k)则是同时包含单词i,k的窗口个数,因此可得到PMI指数,如图所示:
论文解读:Graph Convolutional Networks for Text Classifification

  (4)作者定义了矩阵A表示邻接矩阵,其中权重Aij定义如下:
论文解读:Graph Convolutional Networks for Text Classifification

  当结点分别为单词和文档时,使用TF-IDF;当都是单词时,使用PMI,如果两个结点相同(矩阵的对角线)则定义为1,否则为0。

3.2 图卷积网络

  得到了邻接矩阵,则可以得到预处理的矩阵 A~=D1/2AD1/2\tilde{A}=D^{-1/2}AD^{-1/2},其中 DD 表示度矩阵。根据图卷积网络定义,作者使用两层卷积操作:

Z=softmax(A~ReLU(A~XW0)W1)Z=\mathbf{softmax}(\tilde{A}\mathbf{ReLU}(\tilde{A}XW_0)W_1)

loss表示的是所有文档 YD\mathcal{Y}_{D} 在所有类 FF 下的交叉熵,定义如下:

L=dYDf=1FYdflnZdf\mathcal{L}=-\sum_{d\in\mathcal{Y}_{D}}\sum_{f=1}^{F}Y_{df}lnZ_{df}

主要创新点:

  • 第一个将图网络引入文本分类的方法;
  • 考虑到了文档与单词,单词与单词之间的相关性;
  • 无须预训练词向量以及引入额外知识条件下依然达到了SOTA效果

可以改进的点:

  • 因为只考虑到共现度方面的信息,因此语义方面很低,如果事先预训练可能效果更好,但这违背作者认为的第三个创新点;
  • 可能会受到长尾问题的影响,因此可以使用注意力来辅助提升。

参考文献:
[1] Fastgcn: Fast learning with graph convolutional networks via importance sampling
[2] Semi-supervised classifification with graph convolutional networks