MoE再下一城!港大提倡AnyGraph:初度开启「图大模子」Scaling Law之路

发布日期:2024-09-03 06:01    点击次数:55

MoE再下一城!港大提倡AnyGraph:初度开启「图大模子」Scaling Law之路

新智元报说念

剪辑:LRST

【新智元导读】AnyGraph聚焦于惩处图数据的中枢穷困,率先多种场景、特征和数据集进行预磨砺。其领受羼杂众人模子和特征斡旋步骤处理结构和特征异质性,通过轻量化路由机制和高效预备进步快速适合才略,且在泛化才略上合适Scaling Law。

图数据,看成一种不能或缺的数据推崇样貌,平凡浸透于外交收罗、学术科研收罗、交通不竭系统及生物信息收罗等诸多范畴。看成最平凡诳骗的图学习范式,图表征学习勤恳于学习图中节点的默示向量,交融结构本性与节点特征,以终了精确的瞻望与分析。

比年来露馅出了巨额的图学习步骤,包括图神经收罗、图自监督学习、图预磨砺和微调步骤、以及图大谈话模子。这些步骤连接精进图学习模子的建模才略和瞻望精度,比年的一些步骤探索了增强图模子泛化才略的道路。

关系词,面前景序无边依赖于复杂的调优经过,难以机动嘱托内容图数据复杂多变的结构与特征本性。当图数据波及多个范畴,且模子在磨砺阶段未始见落后,面前模子难以处理,体现了现存步骤在跨范畴的零样本瞻望任务上泛化性能的不及。

为了惩处这一问题,香港大学的筹谋东说念主员提倡AnyGraph这一图基础模子。

论文讨好:https://arxiv.org/pdf/2408.10700

名目地址:https://github.com/HKUDS/AnyGraph

基于图数据的专有性质,AnyGraph聚焦于攻克一下几个方面的中枢穷困,模子预磨砺率先了8种场景、10类特征、以及38个数据集, 以终了搭建图基础模子的见地:

结构和特征异质性

不同诳骗场景下的图数据,其结构形态霄壤之别,包括节点讨好密度、密集子图分离、数据噪声与缺失情况等。现存的步骤,举例图神经收罗,通常被磨砺用于瞻望一类具有固定特质的图数据,其模子自己的容纳才略,也无法处理真确宇宙中跨场景的复杂种种数据。

此外,不同数据集通常存在严重的特征异质性。节点特征是图数据的中枢构成部分之一,但在不同数据靠拢展现出极大的各异性。从蹂躏类别到一语气数值,从文本镶嵌到图统计特征,乃至特征向量的维度齐各不疏浚。如安在零样本场景下处理这些种种化的特征,成为图基础模子必须率先的阻挠。

为了嘱托结构和特征的异质性挑战,AnyGraph领受羼杂众人模子(MoE)架构,在模子中集成了同构但参数不同、互不耦合的多个众人图模子。基于一种高效且雄壮的众人路由算法,将不同的输入数据分派给恰当的众人模子进行学习和瞻望。通过这种样式,AnyGraph不错裁减集成针对不同图数据特质的众人模子,从而达到更强的模子鲁棒性。

另一方面,AnyGraph的每个众人模子齐领受了斡旋的结构和特征斡旋步骤,基于特征值剖析步骤,众人模子将具有不同维度、不同语义的连络矩阵数据和节点特征数据,齐映射为具有斡旋长度和周边语义的斡旋表征。在这一基础上,即使不同数据的表征仍存在一些各异,也不错松弛被众人集成的MoE架构惩处。

快速适合才略

一个高效的图基础模子应具备快速适合新数据集和范畴的才略,粗略在不依赖巨额重新磨砺或微调的情况下,马上调停其参数和学习战略,以嘱托未知图数据的挑战。关系词,现存的图基础模子通常基于大限度的,难以进行快速的模子调停。这种对新图域的低效适合性,成为端正图学习技艺平凡诳骗的瓶颈。

针对这一问题,AnyGraph预备了轻量化的图众人路由机制,使用自监督任务来快速评测多个众人任务对输入数据的瞻望准确性。在不引入非凡标签数据的情况下,这一步骤不错准确找到最优的众人模子,在仅使用单个众人模子、少许数模子参数的情况下,达到优于与大限度预磨砺模子的后果。

下图展示了AnyGraph众人路由机制的分派收尾,不错看到,同源(举例ML1M和ML10M)以及使用疏浚特征构建步骤(举例YelpT, SteamT, AmazT)的数据集,被分到了相似的众人模子。

此外,AnyGraph的众人模子领受一种爽脆高效的预备,数据集的大部分信息不错预处理成高度有用的开动表征,而众人模子仅需要领受多层感知机模子,就能通过众人集成达到大限度模子的后果,从而减少模子前向和反向传播的支出。

下图展示了AnyGraph在逼迫磨砺步数上破耗的计较时代,以及在fine-tune情况下的后果弧线,均展示了AnyGraph在快速适合才略上的上风。

Scaling Law

在视觉和文智商域,大限度基础模子的一个符号性时局是Scaling Law,即跟着模子参数目和磨砺数据量的增多,模子后果连接进步。本文探索了图基础模子是否存在这么的特质。

本文对AnyGraph的多个模子大小影响参数,以及磨砺数据量进行了调停,以测试模子性能跟着这些要素的变化情况。收尾如下所示:

不错看到,在零样本瞻望才略上,AnyGraph保合手了随参数目和数据量增长而连接高潮的趋势,这一时局在磨砺数据集上未能不雅测到。这展示了AnyGraph在泛化才略上合适Scaling Law。这同期也诠释,这种冲破性的模子性能增长应该在更具挑战性的任务上寻找,举例跨范畴的零样本瞻望。

这种连接增长的冲破性模子性能,开头于AnyGraph通用的模子预备,以偏激在巨额跨范畴数据上的充分磨砺。

参考贵府:

https://arxiv.org/pdf/2408.10700