论文阅读与思考(1):Heterogeneous Graph Attention Network异构图注意力网络

论文阅读与思考(1):Heterogeneous Graph Attention Network异构图注意力网络

研究问题

随着深度学习的兴起,深度学习已经在欧几里得数据中取得了很大的成功,但从非欧几里得域生成的数据也取得非常广泛的应用,它们急需有效的分析.例如,在电子商务领域,一个基于图的学习系统能够利用用户和产品之间的交互以实现高度精准的推荐.但是图数据的复杂性对现有机器学习算法提出了重大挑战,因为图数据是不规则的.每张图大小不同、节点无序,一张图中的每个节点都有不同数目的邻近节点,使得一些在图像中容易计算的重要运算(如卷积)不能直接应用于图.此外,现有机器学习算法的核心假设是实例彼此独立.然而,图数据中的每个实例都与周围的其它实例相关,含有一些复杂的连接信息,用于捕获数据之间的依赖关系,包括引用、朋友关系和相互作用.
最近,越来越多的研究开始将深度学习方法应用到图数据领域.随着CNN 的广泛应用,机器学习领域实现了突破并开启了深度学习的新时代,但是CNN 只能在规则的欧几里德空间的数据上运行,如图像(2维网格)和文本(1维序列).此外DeepWalk、LINE、SDNE 等方法在网络表示学习领域取得了很大的成功.然而,这些方法在计算上较为复杂并且在大规模上的图上并不是最优的.因此基于以上两点,如何处理任意图结构数据是GNN模型出现的动机.这篇论文文主要是在GNN领域内进行研究.这篇论文研究主要聚焦于深度学习中的注意力机制,基于注意力机制的图注意力网络可以学习节点和它们邻居的重要性,并根据邻居进行节点分类,但这些图神经网络都只能应用于同构图.同样的现阶段的研究都没有考虑到异构图表示学习中的注意力机制.综上所述,这篇论文研究是如何将注意力机制运用到异构图中.

模型

这个模型遵循一种层次化的结构:节点级的注意力→语义级的注意力.图一给出HAN模型的整体框架.该模型提出一个节点级的注意力来学习基于元路径的邻居的权重,再聚合它们来获得特定语义的节点嵌入.然后HAN可以通过语义级的注意力区分不同的元路径,得到针对特定任务的特定语义节点嵌入的最优加权组合.
节点级注意力
在具体任务中,一个节点基于某条元路径的邻居节点有不同的重要性.节点级注意力能够学习一个节点基于元路径的邻居节点的表示作为该节点的嵌入.由于图中包含不同类型的节点,所以首先通过转移矩阵将所有节点转换到统一的特征空间.给定一个节点对(i,j),节点级注意力能学习到节点j相对于节点i的权重,需要注意的是(i,j)的权重是非对称的.通过softmax计算出节点j的权重系数,这里得到的系数也是非对称的.这只是得到一对(i , j),通过下面的式子聚合所有邻居节点的系数.为了更直观显示聚合过程,论文给出了图2,每个节点的嵌入都来自邻居节点.
由于异构图数据是无尺度的,计算后会有很高的方差,论文通过将节点级注意力延伸到了多头注意力来解决这个问题.最后对于给定的元路径集合,我们可以获得一个特定语义的节点嵌入集合,也就是节点级的注意力.
论文阅读与思考(1):Heterogeneous Graph Attention Network异构图注意力网络
论文阅读与思考(1):Heterogeneous Graph Attention Network异构图注意力网络
语义级注意力
为了学习到更综合的信息,该模型需要根据元路径将多种语义信息融合到一起.所以该模型将节点级注意力机制得到的结果作为输入,来学习每条语义的权重.要学习每条语义的权重,论文首先使用一层的MLP将特定语义嵌入进行非线性转换.利用转移后的嵌入和一个语义级注意力向量q的相似性来衡量特定语义嵌入的重要性.每一条元路径的权重可以通过使用softmax函数对所有元路径的重要性进行归一化得到.需要注意的是 对于不同的任务,元路径有不同的权重.然后把元路径的权重最为特定语义嵌入的系数,对所有的特定语义嵌入进行融合,得到最后的节点嵌入,最后再构建损失函数,该模型使用半监督的方式,通过最小化Cross-Entropy来训练

实验

这篇论文的实验总共分为五个部分,第一部分是比较HAN方法和各种Baseline方法在三个数据集上的节点分类的Macro-F1结果.这一部分的结果表明提出的HAN模型在所有数据集上获得了最佳性能.这个结果表明捕获节点和元路径在异构图分析中是非常重要的.第二部分是聚类分析,采用NMI和ARI指标.这部分结果表明通过对节点和元路径赋予不同的重要性,HAN模型可以学习到一个更有意义的节点嵌入,因此HAN模型可以更全面的描述异构图.第三部分是层次化注意力机制的分析.第三部分的实验有分为两个方面,一方面是对节点级注意力的分析,论文提出对某个特定任务更有帮助的邻居它会有更大的注意力值.论文以其中的一篇文章为例进行了分析,分析结果表明节点级的注意力可以区分邻居之间的差异,并将更高的权重分配给一些有意义的邻居.另一方面是对语义级注意力的分析,论文以DBLP和ACM为例,揭示了语义级别的注意力可以揭示这些元路径之间的差异,并对它们进行适当的加权.第四部分是可视化,将HAN模型与同样是分析异构图网络的GCN和GAT模型以及Metapath2vec模型进行对比,比较将异构图网络在低维空间中展示的能力,HAN表现的最好.第五部分为对参数敏感性的实验,以在ACM数据集的聚类结果(NMI)是评判标准.分别评估了最后嵌入Z的维数,语义级注意力向量q的维数,注意力机制中头部的数量K.这篇论文的实验先从整体对提出方法进行比较,再对模型中的一些细节进行实验,实验设计完善能充分说明方法的有效性。

Baseline

这篇论文将HAN模型与现阶段流行的一些异构网络嵌入方法和图神经网络网络进行的比较包括DwwpWalk,ESim,metapath2vec,HERec,GCN,GAT.此外还与一些HAN模型的变体进行了比较,一个是不考虑节点级注意力将每个邻居的重要性看作是相同的HANnd方法,另一个是不考虑语义级注意力,将每一条元路径的重要性看作是相同的的HANsem方法.这篇论文实验设计中的对比实验非常丰富,不仅考虑到和现有的流行的方法进行了充分的对比,还从自己所提出的模型的两个角度与自我进行对比.实验结果具有说服力,并且该论文提供了模型的源码以及各种参数的设置都在论文中给出,因此实验结果具有可重复性.

总结

这篇论文针对异构图分析中的几个基本问题,提出了一种基于注意机制的半监督异构图神经网络。该方法能够捕获异构图背后复杂的结构和丰富的语义。该模型利用节点级注意力和语义级注意力,分别学习节点和元路径的重要性。同时,该模型以统一的方式使用了结构信息和特征信息。实验结果表明,分类和聚类方法是有效的。通过对学习注意权值的节点级和语义级的分析,证明了该方法具有良好的解释性。这篇论文的不足我认为是模型只考虑了一跳邻居,但在社交网络这种复杂网络中多条邻居是普遍存在的。

[1]: Wang X, Ji HY, Shi C, Wang B, Cui P, Yu P, Ye YF. Heterogeneous Graph Attention Network[C].WWW 2019.