《Inductive representation learning on large graphs》笔记

Introduction

这篇论文介绍了一种图卷积网络(Graph convolution network),该论文的图卷积方法很容易理解,没有涉及傅里叶变换。论文的出发点是为图中每个结点计算得到一个低维嵌入向量。已有的基于因式分解的嵌入方法直接为每个单独的结点训练结点的嵌入向量,是transductive。论文提出来的GraphSAGE是一个泛化的归纳(inductive)框架。Transductive和Inductive的区别是:在训练过程中,已知testing data(unlabelled data)是transductive learing。
在训练过程中,并不知道testing data ,训练好模型后去解决未知的testing data 是inductive learing。

与其他图卷积网络相比,该论文不需要计算整张图的拉普拉斯矩阵,计算量少,适合用于有巨大的网络结构的问题。

Method

图卷积网络的本质是图中的每个结点无时无刻不因为邻居和更远的点的影响而在改变着自己的状态直到最终的平衡,关系越亲近的邻居影响越大1。图的结点状态的变化可以是一个迭代的过程,结点不断地根据邻居的信息改变自身的信息。论文的图卷积方法会进行K次迭代,每次迭代通过聚集函数(aggregator function)聚合结点邻居的信息来更新结点的信息,迭代完成之后,每个结点都得到一个低维的嵌入向量,被下游的机器学习算法用于预测。

Embedding generation

首先介绍结点嵌入向量的生成方法。算法本身如下图所示
《Inductive representation learning on large graphs》笔记

输入的是一张图G(V,E)\mathcal{G}(V, \mathcal{\Epsilon})V\mathcal{V}表示所有结点的集合,E\mathcal{\Epsilon}表示所有边的集合。聚合函数AGGREGATEk,k{1,,K}AGGREGATE_k, k\in\{1, \cdots, K\},每个迭代一个。权重矩阵Wk,k{1,,K}\mathbf{W}^k, k\in\{1, \cdots, K\},每个迭代一个,用于聚合信息之后的线性变化。线性变化之后是非线性**函数σ\sigma,比如ReLU。

首先是把每个结点初始化向量定义为hv0\mathbf{h}_v^0vv表示结点。

接下来是K是迭代,在迭代中更新结点的状态。

内层循环中,第4行,采样结点v的邻居信息{huk1,uN(v)}\{\mathbf{h}_u^{k-1}, \forall u \in \mathcal{N}(v)\},传入聚合函数得到聚合信息hN(v)k\mathbf{h}_{\mathcal{N}(v)}^k。第5行,concat hvk1\mathbf{h}_v^{k-1}hN(v)k\mathbf{h}_{\mathcal{N}(v)}^k,之后是全连接的线性变化+非线性**函数。

第7行,更新后的每个结点的嵌入向量hvk\mathbf{h}_v^{k}要标准化。

迭代结束后,每个结点的嵌入向量记作zv\mathbf{z}_v,用于结点的预测。

算法的直观示意图是
《Inductive representation learning on large graphs》笔记

GraphSAGE不会使用结点的所有邻居,因为结点可以有很多邻居,考虑所有邻居的信息会带来很大的计算量,因此GraphSAGE只随机采样固定数量的邻居,采样数量Si,i1,,KS_i, i\in{1,\cdots, K}

Learning the parameters of GraphSAGE

GraphSAGE的参数可以通过无监督的方式进行训练
JG(zu)=log(σ(zuTzv))QEvnPn(v)log(σ(zuTzv)) \mathcal{J}_{\mathcal{G}}(\mathbf{z}_u) = -\log(\sigma(\mathbf{z}_u^T \mathbf{z}_v)) - Q \cdot \mathbb{E}_{v_n \sim P_n(v)} \log (\sigma(-\mathbf{z}_u^T \mathbf{z}_v))
该损失第一项目的是使邻近的结点有相似的表征,第二项是使不一样的结点有截然不同的表征。结点uu和结点vv的内积zuTzv\mathbf{z}_u^T \mathbf{z}_v越大,说明二者之间相似性越高。σ\sigma应该是sigmoid函数。结点vv是结点uu固定跳数范围内的结点。PnP_n是负样本的采样概率分布,QQ是负样本的数量。

如果样本具有标签,可以把无监督损失替换成监督损失,或者作为额外的损失。

Aggregator Architectures

聚合函数的输入是一堆无序的向量,因此聚合函数需要具备对称性,现在也有论文称permutation-invariant,无论输入数据如何排列,聚合函数的输出结果不变。具备这种性质的函数都可以作为聚合函数。论文考虑了以下3中函数。

Mean aggregator:把邻居的特征向量和自身的特征向量取平均,作为新的特征向量。把算法的第4和第5行换成下面的公式
hvkσ(WkMEAN({hvk1}{huk1,uN(v)})) \mathbf{h}_v^k \gets \sigma(\mathbf{W}^k \cdot MEAN(\{\mathbf{h}_v^{k-1}\} \cup \{\mathbf{h}_u^{k-1}, \forall u \in \mathcal{N}(v)\}))

LSTM aggregator:LSTM并不具有对称性,但LSTM具有很强的表征能力。

Pooling aggregator
AGGREGATEkpool=max({Wpoolhuk1+b,uN(v)}) AGGREGATE_k^{pool} = \max(\{\mathbf{W}_{pool}\mathbf{h}_{u}^{k-1} + b, \forall u \in \mathcal{N}(v)\})

这里max可以换成mean,但是实验发现max效果更好。

Experiments

超参数设定:K=2K=2S1=25S_1 = 25S2=10S_2 = 10

论文使用3种数据集,论文主题分类数据集、Reddit post 话题分类数据集和蛋白质功能分类的生物蛋白质-蛋白质相互作用(PPI)图。

具体的实验过程不多说了,直接看实验结果
《Inductive representation learning on large graphs》笔记


  1. https://blog.csdn.net/qq_24548569/article/details/105876884 ↩︎