《 ROP EDGE : TOWARDS DEEP GRAPH CONVOLU - TIONAL NETWORKS ON NODE CLASSIFICATION》
摘要
过拟合和过度平滑是发展深度图卷积网络进行节点分类(Node classification)的两个主要障碍。特别是过拟合会削弱小数据集的泛化能力,而过平滑会随着网络深度的增加而将输出表示从输入特征中分离出来,从而阻碍模型的训练。本文提出了一种新颖灵活的技术DropEdge来缓解这两个问题。在其核心,DropEdge在每个训练元随机地从输入图中删除一定数量的边,充当数据扩充器和消息传递减速器。此外,我们还从理论上证明了,降低过平滑的收敛速度或减轻过平滑带来的信息损失。更重要的是,我们的DropEdge是一种通用技能,可以与许多其他主干模型(例如gcn、ResGCN、GraphSAGE和JKNet)一起装备,以提高性能。在几个基准测试上的大量实验证明,DropEdge可以不断地改进各种浅层和深层GCNs的性能。通过实验验证了DropEdge在防止过平滑方面的效果。代码将在发布时公开。
1 引言
图卷积网络(GCNs)利用消息传递或等价于某些邻居聚合函数来从节点及其邻居中提取高级特征,提高了各种图形任务的技术水平,如节点分类(node classification)(Bhagat等,2011;张等,2018),社会推荐(social recommendation)(Freeman, 2000;Perozzi et al., 2014),以及link prediction (Liben-Nowell & Kleinberg, 2007)等。换句话说,GCNs已经成为图形表示学习最重要的工具之一。然而,当我们在节点分类上重新访问典型的GCNs时(Kipf & Welling, 2017),它们通常是浅层的(例如,层数为21)。从深度CNNs在图像分类方面的成功中得到启发,提出了几项尝试来探索如何构建深度GCNs来进行节点分类(node classification)(Kipf & Welling, 2017;Li et al., 2018a;徐等,2018a;Li等人,2019年);然而,它们都没有交付足够有表现力的架构。本文的目的是分析影响深层GCNs良好表现的因素,并提出相应的解决方法。
我们首先研究两个因素:过度拟合和过度平滑。过度拟合来自于我们利用一个过度参数化的模型来拟合一个训练数据有限的分布的情况,我们学习的模型很好地拟合了训练数据,但是对测试数据的泛化很差。如果我们在小图形上应用深度GCN,它确实存在(图1是Cora上2层GCN和4层GCN的经验比较)。过度平滑,走向另一个极端,使得训练一个非常深入的GCN非常困难。Li等(2018a)首次提出,Wu等(2019)进一步解释;徐等(2018a);Klicpera等人(2019),图卷积本质上是推送表示相邻节点相互混合,这样,如果我们极端地使用无限个层,所有节点的表示将会收敛到一个固定点,使它们与输入特征无关,并导致渐变消失。我们将这种现象称为节点特征的过度平滑。为了说明它的影响,我们进行了一个8层的示例实验
在图1中,这样一个深度的GCN的训练被观察到收敛性很差。
上述两个问题都可以通过使用DropEdge方法来缓解。“DropEdge”是指在每次训练时,随机剔除输入图中一定比率的边。将DropEdge应用于GCN训练有几个好处(参见图1中DropEdge的实验改进)。通过DropEdge,我们实际上生成了原始图形的不同随机变形副本;因此,我们增加了输入数据的随机性和多样性,从而更好地防止过拟合。其次,DropEdge也可以看作是一个消息传递减速器。在GCNs中,相邻节点之间的消息传递是沿着边缘路径进行的。删除某些边会使节点连接更加稀疏,从而在一定程度上避免了在GCN深入时的过度平滑。实际上,正如我们在本文中从理论上所画出的那样,DropEdge要么延缓了过度平滑的收敛速度,要么减轻了过度平滑带来的信息损失。我们也意识到JKNet使用的密集连接(Xu等人,2018a)是另一种可能防止过度平滑的工具。在其公式中,JKNet密集地将每一个隐藏层与顶层连接起来,因此仍然保留了几乎不受过度平滑影响的底层特征映射。有趣的是,我们发现JKNet的性能可以进一步提高,如果它和我们的DropEdge一起使用的话。实际上,作为一种灵活而通用的技术,我们的dropedge能够在几个基准上提高各种主流骨干网络的性能,包括GCN (Kipf & Welling, 2017)、ResGCN (Li等人,2019)、JKNet (Xu等人,2018a)和GraphSAGE (Hamilton等人,2017)。我们在实验中提供了详细的评价。