百度李伟彬：基于PGL的图神经网络基线系统

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年5月30日，第15期“AI未来说·青年学术论坛”大数据线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。百度李伟彬带来报告《基于PGL的图神经网络基线系统》。

百度李伟彬的报告视频

李伟彬，现任百度自然语言处理部研发工程师。目前是百度飞桨图学习框架Paddle Graph Learning(PGL) 的核心开发者之一，主要负责了PGL异构图框架的研发，开源了数个业界主流模型，并推动了多个基于PGL的图模型在公司重点业务上的落地，具有丰富的图学习实践经验。

报告内容：传染病的有效防治是全人类面临的共同挑战，如何通过大数据，特别是数据的时空关联特性，来精准预测传染病的传播趋势和速度，将有助于人类社会控制传染病，保障社会公共卫生安全。而数据上的空间关联特性，恰好是图神经网络所擅长的。图神经网络在非结构化数据上有着出色的处理能力，使得最近一段时间图神经网络在学界与工业界上大放光彩。因此，本次分享将介绍2020国际大数据比赛中，基于百度飞桨推出的图学习框架Paddle Graph Learning(PGL)实现的基线系统。

百度李伟彬：基于PGL的图神经网络基线系统

基于PGL的图神经网络基线系统

百度李伟彬：基于PGL的图神经网络基线系统

李伟彬工程师分享内容分为以下四部分：赛题简介，图神经网络介绍，PGL框架介绍，以及基于PGL的基线系统介绍。

第一部分是赛题简介。本次百度主办的大数据赛题是高致病性传染病的传播趋势预测，它的主要背景是希望通过数据时空关联特性精准预测传染病传播趋势和速度，这里时空关联特性指不同时间下各个城市或区域之间人口流动情况。总的来说，赛题目标是根据各个城市以及区域人口迁移情况，预测未来一段时间城市中各个区域新增患者数量。这是一个典型的时间序列预测问题，传统的时序分析模型、传播动力学模型等都可以进行处理。

此次赛题提供数据是在不同时间，各个城市、区域之间人口流动数据，而城市空间上的人口迁移其本质是一个图网络：每个城市或者区域看成节点，城市或区域之间人口迁移路线当成边，这启示我们可以用图神经网络算法表征城市间人口迁移与疾病传播趋势之间的关联，这也是此次基线系统主要借助图神经网络实现的原因。

百度李伟彬：基于PGL的图神经网络基线系统

接下来李伟彬工程师介绍了图神经网络的基本知识。图神经网络是处理不规则图数据的方法。图片、文本都是非常规则的网络结构，例如图片是像素点构成的二维矩阵，每个像素点周围有8个像素点；而文本可以看成一维网络，每个单元（词）有前后两个相邻单元（词）。所以可以分别使用CNN、LSTM等方法进行处理。但图网络是非结构化的数据，即图网络中不同节点邻居数量可能是不一样的，每个节点的计算图不同。用于处理图的神经网络，即图卷积与图像上的卷积比较类似，图像上的卷积是用很多的滤波函数，即卷积核，将图像局部像素聚集起来形成新的特征表示。图网络的卷积也是通过聚合目标节点邻居从而更新目标节点的特征表示。不同的是，图像中不同像素点的邻居数量是固定的，而图网络里不同节点邻居数量可能是不一样的，因此不同节点的计算图不同。这样就难以使用传统的CNN、LSTM等处理规则序列的工具处理。

解决问题的第一种方案是用邻接矩阵相乘的方法，实际上前面讲的节点聚合方式也可以通过矩阵相乘方式实现，也就是邻接矩阵A、特征矩阵X，神经网络参数矩阵W相乘，然后再经过非线性函数即可更新节点表达。但是该方法处理稀疏矩阵效率低，而现实中许多图往往都是稀疏矩阵。

百度李伟彬：基于PGL的图神经网络基线系统

第二种方案是基于消息传递编程范式，即将节点更新过程分为两个部分，一个是Send，一个是Receive，用户只需要自定义Send、Receive就可以轻松实现一个图神经网络。Send函数定义在边上，用户自定义Send函数负责把信息从源节点发送到目标节点；Receive函数定义在节点上，负责把这些消息汇聚起来，通过这两个操作可以简单实现复杂的图神经网络了，而且不需要特意将图转换成矩阵，提高了运行效率。基于这样的认识，百度推出了包含消息传递编程范式图神经网络框架PGL。

PGL是百度研发的高效易用的大规模图学习框架，从下往上看PGL以百度飞桨为核心框架，研发图引擎可以支持随机游走、子图采样等内置算法。PGL定制了灵活易用消息传递接口，使用户可以灵活方便自定义图神经网络模型。在灵活易用基础上，PGL依托百度飞桨深度学习平台LODTensor概念，对消息传递、聚合操作进行了性能上的优化，使得在复杂消息传递函数上性能得到了很大的提升。

在框架之上，PGL内置了丰富业界经典模型，方便用户快速调用，而此次大数据竞赛实现的基线系统STGCN也已内置。此外为了满足工业界大规模图学习需求，PGL研发了一套分布式解决方案，目前基于PGL一些图模型已在百度公司内部多个重点业务落地了。

接下来李伟彬工程师依次介绍了PGL的四大特性：高效、规模、易用和丰富。

高效性：每个节点的邻居都不同，相当于定义了一个独立计算图。对于一张图网络，首先从图网络中源节点出发，通过源节点ID可以索引到每一个图节点的特征表示，得到源节点特征表示之后，通过Send函数将源节点信息发送目标节点上。这里Send函数不仅仅是发送，用户也可以在Send函数对节点进行自定义的操作。进行Send操作之后，目标节点接收到源节点的信息，最后目标节点通过Receive函数将原节点信息聚合起来，最终更新目标节点特征表示，这里Receive操作也是可以用户自己定义的。PGL利用LoD Tensor可以并行对消息进行聚合，使得聚合效率大大提高，这是PGL高效的特性。疫情趋势预测是争分夺秒的事情，如果有更加高效工具辅助的话，可以大大提升效率，缩短决策的时间。

大规模：PGL研发了一套分布式解决方案，可以支持十亿节点、百亿边巨图训练。PGL分布式解决方案总共有三大部分，第一是分布式图引擎，这部分主要通过分布式图引擎支持大规模的图存储和图采样；第二是分布式的图模型，通过mpi集群，可以支持图模型的并行训练。第三是分布式参数服务器，由于节点数量十分巨大，使得单机内存无法保存所有节点嵌入向量，所以PGL引入大规模参数服务器，使用户能够轻松在集群搭建算法。

易用性：PGL的易用性体现在支持异构图的游走和消息传递双机制。异构图节点类型和边类型有多种，PGL支持用户自定义游走路径和异构图消息传递范式，让用户可以灵活方便构建异构图的模型。假如在本次赛题中，可以得到城市间人们迁移的目的，比如有些是去旅游、有些是去工作，根据人们不同目的构建不同类型的边，这样可以形成异构图网络，而异构图网络也许可以挖掘出更加有用的信息。

丰富性：PGL内置丰富图神经网络模型，方便用户调用图相关算法。

百度李伟彬：基于PGL的图神经网络基线系统

介绍完PGL框架，接下来李伟彬工程师介绍了本次竞赛中基于PGL的基线系统。本次大数据竞赛的主要目的是构造一个传感病传播预测模型，通过历史人口迁移数据、历史天气情况等数据预测未来一段时间内新增患者数量。赛题提供数据是不同时间、各个城市区域之间人口流动数据，而城市空间人口迁移其本质是图网络，因此我们可以把每个城市或者区域看成节点，把城市或区域之间人口迁移路线当成是边，从而可以使用图神经网络构建训练模型。综合前面所讲的内容，本次大数据竞赛使用了PGL框架构建图神经网络基线系统，首先把城市中区域作为节点，区域间关联强度作为边，这样就形成了一个空间维度图网络，可以在空间维度进行图卷积操作，从而表征出不同区域间的关联情况，而借助PGL框架我们就可以轻松实现图卷积操作。另一方面，人口迁移情况是随时间变化的，因此不同时间点都可以形成一个对应该时间点的图网络，这样在时间维度上形成了多个图网络，对于每个区域在其时间维度上进行图卷积操作，学习该区域时间维度变化情况。综合空间维度和时间维度，基线系统的实现参考了STGCN模型。

基线系统只是对城市中的区域进行图卷积操作，事实上也可以对城市内区域关联和城市间关联分别做图卷积操作，这样可以增加城市与区域之间的关联，或者可以通过两个城市之间人口流动情况扩展出两个城市之间两两区域之间的关联，形成更大的图网络获得更多的信息。其次GNN算法与传统模型、时续分析算法、传播动力学模型和非线性数值逼近结合也许是一个可行的方向。

百度李伟彬：基于PGL的图神经网络基线系统

AI未来说*青年学术论坛