Relational inductive biases, deep learning, and graph networks

Abstract

就像生物学利用自然和培养合作一样,我们拒绝在“手工工程”和“端到端”学习之间做出错误的选择,而是主张从其互补优势中获益的方法。我们探索如何在深度学习架构中使用关系归纳偏差来促进对实体,关系和组成它们的规则的学习。我们为AI工具包提供了一个新的构建块,具有强大的关系归纳偏差|图形网络|它概括和扩展了在图形上运行的神经网络的各种方法,并为操纵结构化知识和生成结构化行为提供了直接的界面。我们讨论图网络如何支持关系推理和组合泛化,为更复杂,可解释和
灵活的推理模式。作为本文的配套,我们还发布了一个用于构建图形网络的开源软件库,并演示了如何在实践中使用它们。

1 Introduction

这反映了组合泛化的原理,即从已知构建块构建新的推论,预测和行为。在这里,我们探讨如何通过将学习偏向于结构化表示和计算,特别是在图形上运行的系统来提高现代AI的组合泛化能力。人类组合概括的能力关键取决于我们表达结构和关系推理的认知机制。

整个子领域都侧重于明确的以实体和关系为中心的学习,例如关系强化学习(D?zeroski et al。,2001)和统计关系学习(Getoor和Taskar,2007)。结构化方法在以前的时代对机器学习至关重要的一个关键原因部分是因为数据和计算资源昂贵,并且结构化方法强大的归纳偏差所带来的改进的样本复杂性非常有价值。

与过去的人工智能方法相比,现代深度学习方法(LeCun等,2015; Schmidhuber,2015; Goodfellow等,2016)经常遵循“端到端”的设计理念,强调最小的先验表征和计算假设,并试图避免显式结构和" hand-engineering” 。

归纳偏差:归纳偏差通常具有交易性,可以提高样本的复杂性,可以用偏差 - 方差交易来理解吗? (Geman等,1992)。理想情况下,归纳偏差既可以改善对解决方案的搜索,又不会显着降低性能,也可以帮助找到以理想方式推广的解决方案;然而,不匹配的归纳偏差也可能通过引入过于强大的约束而导致次优性能。

标准深度学习构建块中的关系归纳偏差

2.计算更新

Relational inductive biases, deep learning, and graph networks
Relational inductive biases, deep learning, and graph networks

3. Relational inductive biases in graph networks

4. Design principles for graph network architectures

GN块的全局,节点和边缘属性可以使用任意表示格式。在深度学习实现中,实值向量和张量是最常见的。但是,也可以使用其他数据结构,例如序列,集合甚至图形。问题的要求通常会确定应该为属性使用哪些表示。例如,当输入数据是图像时,属性可以表示为图像块的张量;然而,当输入数据是文本文档时,属性可以是与句子对应的单词序列。

对于更广泛架构内的每个GN块,边缘和节点输出通常对应于矢量或张量列表,每个边缘或节点一个,并且全局输出对应于单个矢量或张量。这允许将GN的输出传递给其他深度学习构建块,例如MLP,CNN和RNN。GN块的输出也可以根据任务的需求进行定制。特别是,

  • 边缘聚焦的GN使用边缘作为输出,例如,以做出关于实体之间的交互的决定
  • 以节点为中心的GN使用节点作为输出,例如推理物理系统(Battaglia等,2016; Chang等,2017; Wang等,2018b; Sanchez-Gonzalez等,2018)。
  • 以图形为中心的GN使用全局变量作为输出,例如预测物理系统的潜在能量(Battaglia等,2016),分子的属性(Gilmer等,2017),或者关于视觉场景(Santoro等,2017)。
  • 节点,边和全局输出也可以根据任务进行混合和匹配。例如,Hamrick等人。

在定义输入数据如何表示为图形时,通常有两种情况:第一,输入明确指定关系结构;第二,必须推断或假设关系结构。这些不是硬性的区别,而是连续统一体的极端。具有更明确指定的实体和关系的数据的示例包括知识图,社交网络,解析树,优化问题,化学图,道路网络和具有已知交互的物理系统。图2a-d示出了这些数据如何表示为图形

关系结构未明确且必须推断或假设的数据示例包括视觉场景,文本语料库,编程语言源代码和多代理系统。在这些类型的设置中,数据可以被格式化为没有关系的一组实体,或甚至仅仅是矢量或张量(例如,图像)。 如果关系不可用,最简单的方法是实例化实体之间所有可能的有向边(图2f)。然而,这对于大量实体来说可能是禁止的,因为可能的边缘的数量随着节点的数量而呈二次方增长。因此,开发更复杂的方法来推断非结构化数据的稀疏结构(Kipf et al。,2018)是未来的重要方向。

Relational inductive biases, deep learning, and graph networks
An image, which can be decomposed into image patches
corresponding to nodes in a fully connected graph (e.g. Santoro et al., 2017; Wang et al., 2018c).

4.2 Congurable within-block structure

GN块中的结构和功能可以以不同的方式配置,而这些方式可以使用提供哪些信息作为其功能的输入,以及如何生成输出边缘,节点和全局更新的灵活性。特别是每个在公式Φ中必须用一些函数f来实现,其中f的参数确定它需要什么信息作为输入;在图4中,每个传入箭头Φ描述u,V和E是否作为输入。
哈米克等人。 (2018年)和桑切斯 - 冈萨雷斯等人。 (2018)使用图4a中所示的完整GN块。
他们的Φ实现使用神经网络(下面表示为NNe,NNv和NNu,表示它们是具有不同参数的不同函数)。他们的?实现使用了元素和,但也可以使用averages和max / min

Relational inductive biases, deep learning, and graph networks
Relational inductive biases, deep learning, and graph networks
Relational inductive biases, deep learning, and graph networks

4.2.1 Message-passing neural network (MPNN)

详细查看论文附录
吉尔默等人(2017)MPNN推广了许多以前的架构,可以自然地翻译成GN形式。遵循MPNN论文的术语(参见Gilmer等人(2017),第2-4页):
Relational inductive biases, deep learning, and graph networks
Relational inductive biases, deep learning, and graph networks

4.3 Composable multi-block architectures

图网络的一个关键设计原则是通过组合GN块来构建复杂的体系结构。我们定义了一个GN块,因为它始终将包含边,节点和全局元素的图作为输入,并返回一个与输出具有相同组成元素的图(当这些元素未明确时,只需将输入元素传递给输出更新)。这个图形到图形的输入/输出接口确保一个GN块的输出可以作为输入传递给另一个,即使它们的内部配置是不同的,类似于标准深度的张量到张量接口学习工具包。在最基本的形式中,两个GN块GN1和GN2可以组成GN1-GN2通过将rst的输出作为输入传递给第二个:G‘= GN2(GN1(G))。