百度李伟彬:基于PGL的图神经网络基线系统

百度李伟彬:基于PGL的图神经网络基线系统

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年5月30日,第15期“AI未来说·青年学术论坛”大数据线上专场论坛以“线上平台直播+微信社群图文直播”形式行。百度李伟彬带来报告《基于PGL的图神经网络基线系统

百度李伟彬的报告视频

李伟彬,现任百度自然语言处理部研发工程师。目前是百度飞桨图学习框架Paddle Graph Learning(PGL) 的核心开发者之一,主要负责了PGL异构图框架的研发,开源了数个业界主流模型,并推动了多个基于PGL的图模型在公司重点业务上的落地,具有丰富的图学习实践经验。

 

报告内容:传染病的有效防治是全人类面临的共同挑战,如何通过大数据,特别是数据的时空关联特性,来精准预测传染病的传播趋势和速度,将有助于人类社会控制传染病,保障社会公共卫生安全。而数据上的空间关联特性,恰好是图神经网络所擅长的。图神经网络在非结构化数据上有着出色的处理能力,使得最近一段时间图神经网络在学界与工业界上大放光彩。因此,本次分享将介绍2020国际大数据比赛中,基于百度飞桨推出的图学习框架Paddle Graph Learning(PGL)实现的基线系统。

百度李伟彬:基于PGL的图神经网络基线系统

基于PGL的图神经网络基线系统

百度李伟彬:基于PGL的图神经网络基线系统

李伟彬工程师分享内容分为以下四部分:赛题简介,图神经网络介绍,PGL框架介绍,以及基于PGL的基线系统介绍。

第一部分是赛题简介。本次百度主办的大数据赛题是高致病性传染病的传播趋势预测,它的主要背景是希望通过数据时空关联特性精准预测传染病传播趋势和速度,这里时空关联特性指不同时间下各个城市或区域之间人口流动情况。总的来说,赛题目标是根据各个城市以及区域人口迁移情况,预测未来一段时间城市中各个区域新增患者数量。这是一个典型的时间序列预测问题,传统的时序分析模型、传播动力学模型等都可以进行处理。

此次赛题提供数据是在不同时间,各个城市、区域之间人口流动数据,而城市空间上的人口迁移其本质是一个图网络:每个城市或者区域看成节点,城市或区域之间人口迁移路线当成边,这启示我们可以用图神经网络算法表征城市间人口迁移与疾病传播趋势之间的关联,这也是此次基线系统主要借助图神经网络实现的原因。

百度李伟彬:基于PGL的图神经网络基线系统

接下来李伟彬工程师介绍了图神经网络的基本知识。图神经网络是处理不规则图数据的方法。图片、文本都是非常规则的网络结构,例如图片是像素点构成的二维矩阵,每个像素点周围有8个像素点;而文本可以看成一维网络,每个单元(词)有前后两个相邻单元(词)。所以可以分别使用CNNLSTM等方法进行处理。但图网络是非结构化的数据,即图网络中不同节点邻居数量可能是不一样的,每个节点的计算图不同。用于处理图的神经网络,即图卷积与图像上的卷积比较类似,图像上的卷积是用很多的滤波函数,即卷积核,将图像局部像素聚集起来形成新的特征表示。图网络的卷积也是通过聚合目标节点邻居从而更新目标节点的特征表示。不同的是,图像中不同像素点的邻居数量是固定的,而图网络里不同节点邻居数量可能是不一样的,因此不同节点的计算图不同。这样就难以使用传统的CNNLSTM等处理规则序列的工具处理。

解决问题的第一种方案是用邻接矩阵相乘的方法,实际上前面讲的节点聚合方式也可以通过矩阵相乘方式实现,也就是邻接矩阵A、特征矩阵X,神经网络参数矩阵W相乘,然后再经过非线性函数即可更新节点表达。但是该方法处理稀疏矩阵效率低,而现实中许多图往往都是稀疏矩阵。

百度李伟彬:基于PGL的图神经网络基线系统

第二种方案是基于消息传递编程范式,即将节点更新过程分为两个部分,一个是Send,一个是Receive,用户只需要自定义SendReceive就可以轻松实现一个图神经网络。Send函数定义在边上,用户自定义Send函数负责把信息从源节点发送到目标节点;Receive函数定义在节点上,负责把这些消息汇聚起来,通过这两个操作可以简单实现复杂的图神经网络了,而且不需要特意将图转换成矩阵,提高了运行效率。基于这样的认识,百度推出了包含消息传递编程范式图神经网络框架PGL

PGL是百度研发的高效易用的大规模图学习框架,从下往上看PGL以百度飞桨为核心框架,研发图引擎可以支持随机游走、子图采样等内置算法。PGL定制了灵活易用消息传递接口,使用户可以灵活方便自定义图神经网络模型。在灵活易用基础上,PGL依托百度飞桨深度学习平台LODTensor概念,对消息传递、聚合操作进行了性能上的优化,使得在复杂消息传递函数上性能得到了很大的提升。

在框架之上,PGL内置了丰富业界经典模型,方便用户快速调用,而此次大数据竞赛实现的基线系统STGCN也已内置。此外为了满足工业界大规模图学习需求,PGL研发了一套分布式解决方案,目前基于PGL一些图模型已在百度公司内部多个重点业务落地了。

接下来李伟彬工程师依次介绍了PGL的四大特性:高效、规模、易用和丰富。

高效性:每个节点的邻居都不同,相当于定义了一个独立计算图。对于一张图网络,首先从图网络中源节点出发,通过源节点ID可以索引到每一个图节点的特征表示,得到源节点特征表示之后,通过Send函数将源节点信息发送目标节点上。这里Send函数不仅仅是发送,用户也可以在Send函数对节点进行自定义的操作。进行Send操作之后,目标节点接收到源节点的信息,最后目标节点通过Receive函数将原节点信息聚合起来,最终更新目标节点特征表示,这里Receive操作也是可以用户自己定义的。PGL利用LoD Tensor可以并行对消息进行聚合,使得聚合效率大大提高,这是PGL高效的特性。疫情趋势预测是争分夺秒的事情,如果有更加高效工具辅助的话,可以大大提升效率,缩短决策的时间。

大规模:PGL研发了一套分布式解决方案,可以支持十亿节点、百亿边巨图训练。PGL分布式解决方案总共有三大部分,第一是分布式图引擎,这部分主要通过分布式图引擎支持大规模的图存储和图采样;第二是分布式的图模型,通过mpi集群,可以支持图模型的并行训练。第三是分布式参数服务器,由于节点数量十分巨大,使得单机内存无法保存所有节点嵌入向量,所以PGL引入大规模参数服务器,使用户能够轻松在集群搭建算法。

易用性:PGL的易用性体现在支持异构图的游走和消息传递双机制。异构图节点类型和边类型有多种,PGL支持用户自定义游走路径和异构图消息传递范式,让用户可以灵活方便构建异构图的模型。假如在本次赛题中,可以得到城市间人们迁移的目的,比如有些是去旅游、有些是去工作,根据人们不同目的构建不同类型的边,这样可以形成异构图网络,而异构图网络也许可以挖掘出更加有用的信息。

丰富性:PGL内置丰富图神经网络模型,方便用户调用图相关算法。

百度李伟彬:基于PGL的图神经网络基线系统

介绍完PGL框架,接下来李伟彬工程师介绍了本次竞赛中基于PGL的基线系统。本次大数据竞赛的主要目的是构造一个传感病传播预测模型,通过历史人口迁移数据、历史天气情况等数据预测未来一段时间内新增患者数量。赛题提供数据是不同时间、各个城市区域之间人口流动数据,而城市空间人口迁移其本质是图网络,因此我们可以把每个城市或者区域看成节点,把城市或区域之间人口迁移路线当成是边,从而可以使用图神经网络构建训练模型。综合前面所讲的内容,本次大数据竞赛使用了PGL框架构建图神经网络基线系统,首先把城市中区域作为节点,区域间关联强度作为边,这样就形成了一个空间维度图网络,可以在空间维度进行图卷积操作,从而表征出不同区域间的关联情况,而借助PGL框架我们就可以轻松实现图卷积操作。另一方面,人口迁移情况是随时间变化的,因此不同时间点都可以形成一个对应该时间点的图网络,这样在时间维度上形成了多个图网络,对于每个区域在其时间维度上进行图卷积操作,学习该区域时间维度变化情况。综合空间维度和时间维度,基线系统的实现参考了STGCN模型。

基线系统只是对城市中的区域进行图卷积操作,事实上也可以对城市内区域关联和城市间关联分别做图卷积操作,这样可以增加城市与区域之间的关联,或者可以通过两个城市之间人口流动情况扩展出两个城市之间两两区域之间的关联,形成更大的图网络获得更多的信息。其次GNN算法与传统模型、时续分析算法、传播动力学模型和非线性数值逼近结合也许是一个可行的方向。

 

百度李伟彬:基于PGL的图神经网络基线系统

AI未来说*青年学术论坛

第一期 数据挖掘专场

1. 李国杰院士:理性认识人工智能的“头雁”作用

2. 百度熊辉教授:大数据智能化人才管理

3. 清华唐杰教授:网络表示学习理论及应用

4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐

5. 清华柴成亮博士:基于人机协作的数据管理

第二期 自然语言处理专场

1. 中科院张家俊:面向自然语言生成的同步双向推断模型

2. 北邮李蕾:关于自动文本摘要的分析与讨论

3. 百度孙珂:对话技术的产业化应用与问题探讨

4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳:通过句法分析看上下文相关词向量

第三期 计算机视觉专场

1. 北大彭宇新:跨媒体智能分析与应用

2. 清华鲁继文:深度强化学习与视觉内容理解

3. 百度李颖超:百度增强现实技术及应⽤

4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬 :物体检测最新进展

第四期 语音技术专场

1. 中科院陶建华:语音技术现状与未来

2. 清华大学吴及:音频信号的深度学习处理方法

3. 小米王育军:小爱背后的小米语音技术

4. 百度康永国:AI 时代的百度语音技术

5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别

第五期 量子计算专场

1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为:量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算

4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量

5. 百度段润尧:量子架构——机遇与挑战

第六期 机器学习专场

1. 中科院张文生:健康医疗大数据时代的认知计算

2. 中科院庄福振:基于知识共享的机器学习算法研究及应用

3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践

4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自动驾驶专场

1. 北京大学查红彬:基于数据流处理的SLAM技术

2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术

第八期 深度学习专场

1. 中科院文新:深度学习入门基础与学习资源

2. 中科院陈智能:计算机视觉经典——深度学习与目标检测

3. 中科院付鹏:深度学习与机器阅读

第九期 个性化内容推荐专场

1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究

2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用

第十期 视频理解与推荐专场

1. 北京大学袁晓如:智能数据可视分析

第十一期 信息检索与知识图谱专场

1. 北京邮电大学邵蓥侠:知识图谱高效嵌入方法

2. 人民大学徐君:智能搜索中的排序-突破概率排序准则

3. 百度周景博:POI知识图谱的构建及应用

4. 百度宋勋超:百度大规模知识图谱构建及智能应用

5. 百度冯知凡:基于知识图谱的多模认知技术及智能应用

第十二期 年度特别专场

1. 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁

2. 清华大学董胤蓬:Adversarial Robustness of Deep Learning

3. UIUC罗宇男:AI-assisted Scientific Discovery

4. 斯坦福应智韬:Graph Neural Network Applications

第十三期 AI助力疫情攻关线上专场

1. 清华大学吴及:信息技术助力新冠防控

2. 北京大学王亚沙:新冠肺炎传播预测模型

3. 百度黄际洲:时空大数据与AI助力抗击疫情——百度地图的实践与思考

4. 百度张传明:疫情下的“活”导航是如何炼成的

第十四期 深度学习线上专场

1. 中国科学院徐俊刚:自动深度学习解读

2. 北航孙钰:昆虫目标检测技术

3. 百度尤晓赫:EasyDL,加速企业AI转型

4. 百度邓凯鹏:飞桨视觉技术解析与应用

百度李伟彬:基于PGL的图神经网络基线系统

推荐阅读专题

百度李伟彬:基于PGL的图神经网络基线系统

百度李伟彬:基于PGL的图神经网络基线系统

百度李伟彬:基于PGL的图神经网络基线系统

百度李伟彬:基于PGL的图神经网络基线系统

百度李伟彬:基于PGL的图神经网络基线系统

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

百度李伟彬:基于PGL的图神经网络基线系统