论文解读：Graph Convolutional Networks for Text Classifification

先前的文本分类方法是基于CNN或RNN进行的，只能单独的对文本自身的上下文进行语义提取，而不能够对文本之间的相关信息进行表示。随着图结构在NLP领域的大放光彩，将图引入文本分类是新的思路。

一、简要信息

序号	属性	值
1	模型名称	Text-GCN
2	所属领域	自然语言处理
3	研究内容	文本分类
4	核心内容	Text Classification, Graph Convolutional Network
5	GitHub源码	https://github.com/yao8839836/text_gcn
6	论文PDF	https://arxiv.org/pdf/1809.05679v1
7	引用（GBT7714）	Liu X , You X , Zhang X , et al. Tensor Graph Convolutional Networks for Text Classification[J]. World Wide Web, 2020(Aug).
8	引用（BibTex）	@article{Liu2020Tensor,title={Tensor Graph Convolutional Networks for Text Classification},author={Liu, Xien and You, Xinxin and Zhang, Xiao and Wu, Ji and Lv, Ping},journal={World Wide Web},number={Aug},year={2020}}

二、任务描述

给定一个语料，首先通过词共现统计方法构建一个图，记做 $G=(V,E)$ ，其中 $V$ 表示图中的结点，可以是单词，也可以是文档； $E$ 则表示边。只定义（文档-单词）和（单词-单词）之间的边。因此文本翻译可以建模成结点分类（node classification）

三、方法详细介绍:

论文解读：Graph Convolutional Networks for Text Classifification

3.1 构建图结构文本语料

构建图包括几个步骤：
（1）首先对于所有单词生成词表，该词表中每个独立的单词可以作为图中的结点。其次整个文档也可以作为结点，因此，图包含单词级别和文档级别两种类型的结点，因此该图是heterogeneous的。初始化的时候，每个单词使用独热编码来表示（不使用预训练词向量），因此可以表示为单位矩阵 $X=I$ ；
（2）接下来主要重点是如何定义边。作者只定义两种类型的边，一种是（文档-单词），一种是（单词-单词）。（文档-单词）可以使用TF-IDF进行度量。假设第i个单词和第j个文档，其中TF表示单词i在文档j中的共现次数，IDF则表示包含单词i的所有文档的对数表示。TF-IDF=TF*IDF。通过进行归一化可以得到单词i与文档j的边权；
（3）另一个则是（单词-单词），作者使用PMI指数。首先定义一个滑动窗口W，其在文档上进行滑动，#W表示文档j上滑动窗口的个数，#W(i)表示所有滑动窗口中包含单词i的个数， #W(i,k)则是同时包含单词i，k的窗口个数，因此可得到PMI指数，如图所示：
论文解读：Graph Convolutional Networks for Text Classifification

（4）作者定义了矩阵A表示邻接矩阵，其中权重Aij定义如下：
论文解读：Graph Convolutional Networks for Text Classifification

当结点分别为单词和文档时，使用TF-IDF；当都是单词时，使用PMI，如果两个结点相同（矩阵的对角线）则定义为1，否则为0。

3.2 图卷积网络

得到了邻接矩阵，则可以得到预处理的矩阵 $\tilde{A}=D^{-1/2}AD^{-1/2}$ ，其中 $D$ 表示度矩阵。根据图卷积网络定义，作者使用两层卷积操作：

$Z=\mathbf{softmax}(\tilde{A}\mathbf{ReLU}(\tilde{A}XW_0)W_1)$

loss表示的是所有文档 $\mathcal{Y}_{D}$ 在所有类 $F$ 下的交叉熵，定义如下：

$\mathcal{L}=-\sum_{d\in\mathcal{Y}_{D}}\sum_{f=1}^{F}Y_{df}lnZ_{df}$

主要创新点:

第一个将图网络引入文本分类的方法；
考虑到了文档与单词，单词与单词之间的相关性；
无须预训练词向量以及引入额外知识条件下依然达到了SOTA效果

可以改进的点:

因为只考虑到共现度方面的信息，因此语义方面很低，如果事先预训练可能效果更好，但这违背作者认为的第三个创新点；
可能会受到长尾问题的影响，因此可以使用注意力来辅助提升。

参考文献:
[1] Fastgcn: Fast learning with graph convolutional networks via importance sampling
[2] Semi-supervised classifification with graph convolutional networks

论文解读：Graph Convolutional Networks for Text Classifification