《深入浅出图神经网络》学习笔记:图数据的表示学习方法

图数据中同时包含着两部分信息:属性信息与结构信息。

属性信息描述了图中对象的固有性质;结构信息描述了对象之间的关联性质,这种由关联所产生的结构不仅对图数据中节点的刻画具有很大的帮助作用,而且对该全图的刻画也起着关键作用。

一个优秀的针对图数据的学习系统,必须能够做到对属性信息和结构信息进行端对端的学习。

1、基于手工的方法

一般来说,图数据中属性信息的处理是比较简单的,按照属性的类型进行相应的编码设计,然后将其拼接成一个表示节点属性的特征向量就可以了,但是结构信息蕴含在节点之间的关系中,是比较难处理的。我们所对比的两个方法的核心都是在如何处理图的结构信息上。

缺点:该方法对于图数据的处理方式非常依赖人工干预,具体来说,就是将图中节点的结构信息以一些图的统计特征进行替代,常见的如节点的度、节点的中心度、节点的PageRank值等,然后将这个代表节点结构信息的特征向量与代表节点属性信息的特征向量拼接在一起,送到下游进行任务的学习。这种方法的最大问题在于,表示结构信息的特征向量需要人为定义,因此很难确定这些统计特征是否对学习后面的任务有效。
《深入浅出图神经网络》学习笔记:图数据的表示学习方法

2、基于随机游走的方法

其基本思想是将图中节点所满足的关系与结构的性质映射到一个新的向量空间去,比如在图上距离更近的两个节点,在新的向量空间上的距离也更近。通过这样的优化目标将图里面的数据,转化成向量空间里面的数据,这样处理起来就会更加方便。接下来,该方法和基于手工特征的方法的思路一样,将代表节点结构信息的特征向量与代表节点属性信息的特征向量进行拼接,然后进行下游的任务学习。

所不同的是,其节点的结构信息是通过随机游走类方法进行学习的,并不依赖人为定义,因此相比之下会更加高效。

《深入浅出图神经网络》学习笔记:图数据的表示学习方法

4、基于GCN的方法

GCN对于属性信息和结构信息的学习体现在其核心计算公式上:,这一计算过程可以被分拆成两步:

第1步:XW是对属性信息的仿射变换,学习了属性特征之间的交互模式;

第2步:从空域来看是聚合邻居节点的过程,代表了对节点局部结构信息的编码。
《深入浅出图神经网络》学习笔记:图数据的表示学习方法