KDD CUP 2021首届图神经网络大赛放榜,百度飞桨PGL得到2金1银

2022-11-17 09:33:52 作者:绘離開噈莂堔擁
导读:KDD CUP 2021首届图神经网络大赛放榜,百度飞桨PGL获得2金1银,机器之心发布机器之心编辑部百度飞桨凭借什么在「大数据领域世界杯」 KDD CUP三大赛道里豪取两金一银?近日,由 KDD CUP 与 OGB(Open ...

呆板之心公布

呆板之心编辑部

百度飞桨依附什么在「大数据范畴天下杯」 KDD CUP三大赛道里豪取两金一银?

克日,由 KDD CUP 与 OGB(Open Graph Benchmark)团结举行的首届图神经网络大赛正式放榜,在 DeepMind、微软、蚂蚁金服、UCLA 等环球 500 多个顶尖企业、高校和试验室的猛烈竞争中,百度依附飞桨图进修框架 PGL 一起过关斩将,终极在全部三个赛道包办了两冠一亚。

本次大赛包办方斯坦福大学 Jure Leskovec 传授公布冠部队伍

据相识,KDD CUP 是 ACM SIGKDD 构造的年度赛事,素有 「大数据范畴天下杯」 之誉,是现在数据发掘范畴最高程度、最具影响力、范围最大的国际顶级赛事。现在年,KDD CUP 与 OGB 团结举行了第一届 OGB-LSC(OGB Large-Scale Challenge)竞赛,提供来自真实天下的超大范围图数据,来完成图进修范畴的节点分类、边猜测和图回来三大使命。

本次竞赛接纳「闭卷测验」,整个竞赛周期只有 2 次提交模子效果时机,极其磨练参赛步队模子泛化本领,比赛难度极大。得益于百度在图神经网络的连续深耕,在本次大赛的三大赛道之中,百度飞桨图进修框架 PGL,合计夺得大范围节点分类赛道冠军、大范围图干系猜测赛道冠军、化学分子图性子猜测赛道亚军。

飞桨 PGL 夺冠页面:http://ogb.stanford.edu/kddcup2021/results/

飞桨 PGL 代码完全开放,接待家人们利用、反馈和奉献。

  • PGL 链接:
  • http://github.com/PaddlePaddle/PGL
  • B 站 图神经网络 7 日教程:
  • http://www.bilibili.com/video/BV1rf4y1v7cU
  • PGL 图进修入门教程:
  • http://aistudio.baidu.com/aistudio/projectdetail/413386
  • 飞桨 PGL 参赛陈诉 & 代码:
  • http://github.com/PaddlePaddle/PGL/tree/main/examples/kddcup2021

大范围节点分类赛道冠军:引入基于异构干系的同一消息通报模子

OGB-LSC 节点分类数据集,泉源于真实天下的超大范围学术引用网络 MAG(Microsoft Academic Graph)。OGB 官方提取了超 2.4 亿的实体(包罗论文、作者等),构建出包罗 16 亿边干系的大范围异构图。参赛选手需从异构图中发掘有用信息,猜测出指定的 arXiv 论文的主题(统共包罗 153 个主题,比方 cs.LG 呆板进修、q-bio.BM 生物分子等)。

现在,办理节点分类的图进修要领重要包罗两类:一类是标签通报算法,而另一类则是通过模子对多阶邻人特性举行聚合,并猜测中间节点标签的图神经网络。然而现在这两种要领均有其范围性,无法最大限度的使用图节点中的标签信息。

为办理上述题目,飞桨 PGL 提出了同一消息通报模子 UniMP,奇妙地使用了『标签』袒护猜测计谋,使得模子可以在练习和猜测中,同时举行标签通报和特性聚合,乐成地将上述两种图进修要领同一到消息通报模子中,并在半监视节点分类使命上取得显着提拔。现在,相干论文已被 IJCAI2021 收录,并成为现在节点分类使命中的主流的强基准。

R-UniMP:标签与特性(图中蓝色能量)在同一的消息通报机制下举行流传

针对本次的大范围异构图,飞桨 PGL 进一步引入了基于异构干系的采样要领与细致力融合机制,将 UniMP 升级成为 R-UniMP,而且在飞桨并行盘算框架底子上实现了漫衍式大范围图神经网络模子的练习和猜测。试验效果相对官方基线的验证集正确率提拔快要 10 个百分点!并终极在与 DeepMind、微软、蚂蚁金服、清华等一众国表里科技公司与学术机构的比力中摘得桂冠。

大范围图干系猜测赛道冠军:提出 20 层的 NOTE-RPS 知识图谱嵌入模子

本次边猜测使命为大范围知识图谱中的干系猜测。在知识图谱中,通过毗连差别实体的三元组(比方姚明-诞生于 ->上海)来表现关于天下的究竟知识。然而,这些大型知识图谱并不美满,缺少实体之间的很多干系信息。

利用呆板进修要领主动估算缺失的三元组可以明显淘汰人工修补本钱,从而提供了更全面的知识图谱。本次竞赛利用 Wikidata 知识图谱,包罗近 9 万万的实体和 5 亿的三元组,为至今数据范围最大的知识图谱使命。

现在业界知识表现模子屡见不鲜,比方 TransE、RotatE 等。飞桨 PGL 基于大范围知识表现库 PGL-KE,对已有算法升级提出了 Normalized Orthogonal Transforms Embedding(NOTE)模子,可以或许对干系举行多维度建模,同时能在大范围场景下仍连结数值稳健性。

NOTE:归一化正交转换知识图谱嵌入模子

其次,飞桨 PGL 提出的 Relation-based Post Smoothing (RPS)图神经网络算法,对练习完的 NOTE 模子举行后处置惩罚,并利用了 20 层的 RPS 模子,堪称知识图谱范畴最深的图神经网络模子。基于 NOTE+RPS 大范围知识表现方案的试验效果相对付官方提供的基准提拔了 12 个百分点,并终极在与阿里巴巴、哈工大、中科大等团队的比力中一举夺魁,助力知识图谱向实践应用迈出了庞大一步。

化学分子图性子猜测赛道:使用分子 3D 构象结构自监视预练习帮助使命

分子特性猜测已被遍及以为是盘算药物和质料发觉中最要害的使命之一。基于 DFT 量子物理盘算的要领必要泯灭大量时间才气有用猜测多重分子性子。为了使用图神经网络壮大的表达本领来猜测分子性子,飞桨 PGL 与螺旋桨 PaddleHelix 生物盘算框架团结提出了 LiteGEM 模子,使用分子的 3D 构象结构自监视预练习帮助使命,提拔分子性子猜测成效,并终极得到亚军。

应用落地:可支持更大范围财产应用,飞桨图进修框架 PGL 迎来庞大升级

除了在 KDD CUP 上全面着花,飞桨 PGL 也一向连续地致力于图神经网络算法创新以及更大范围的产业应用落地。

克日,飞桨 PGL 迎来庞大升级,推出了万亿超大范围漫衍式图引擎,本次 KDD CUP 夺冠技能方案便是均基于该漫衍式图引擎。漫衍式图引擎研发的初志也是盼望图进修算法可以在业界实现更大范围的财产应用,现在,百度已借助飞桨 PGL 在搜刮、信息流推举、金融风控、智能舆图、知识图谱等多个场景实现数十项应用落地。

深度进修开辟者峰会 WaveSummit 2021 万亿图引擎公布现场

别的,飞桨 PGL 还与多个外部机构互助:网易云音乐在调研了大量开源方案后,也选择了对大范围图练习越发友爱的飞桨 PGL 作为云音乐推举的图神经网络底子框架。同时,飞桨 PGL 也助力科技创新 2030「新一代人工智能」庞大项目 OpenKS 知识盘算引擎。

源于图神经网络对付庞大数据建模的方便以及其壮大的表达本领,飞桨 PGL 也探究图神经网络与多个交织学科的联合,包罗构建大数据疫情猜测体系,与飞桨螺旋桨 PaddleHelix 互助致力于化合物属性猜测,并在多个化合物猜测榜单上取得 SOTA。

飞桨图进修框架 PGL

图进修作为通用的人工智能算法之一,势必成为智能期间新的底子本领,赋能各行各业,助力智能经济腾飞。现阶段仅仅是图进修高潮的开始,将来还将有越发深度的技能产出,和更大范围的财产时机显现,扎根图进修范畴,连续为财产才智化升级赋能,必要从如今就开始。

精彩图集