当前位置:网站首页>NIPS2021 | 超越GraphCL,GNN+对比学习的节点分类新SOTA
NIPS2021 | 超越GraphCL,GNN+对比学习的节点分类新SOTA
2022-07-05 09:13:00 【处女座程序员的朋友】
大家好,我是对白。
今天给大家解读一篇NIPS2021中GNN与对比学习结合的论文,后面会持续更新NIPS2021中关于对比学习(Contrastive Learning)论文的解读,欢迎大家关注~
这篇论文来自美国普渡大学,通过引入对抗学习作为图数据增强方法,从而避免在训练期间捕获冗余信息导致下游任务效果差的问题。
一、摘要
由于现实世界图/网络数据中普遍存在的标签稀缺问题,因此非常需要图神经网络 (GNN) 的自监督学习。图对比学习 (GCL) 通过训练 GNN 以最大化相同图在不同增强形式中的表示之间的对应关系,即使不使用标签也可以产生鲁棒且可迁移的 GNN。然而,由传统 GCL 训练的 GNN 经常冒着捕获冗余图特征的风险,因此可能很脆弱,并且在下游任务中效果很差。在这里,我们提出了一种新的方法,称为对抗性图对比学习 (AD-GCL),它使 GNN 能够通过优化 GCL 中使用的对抗性图增强策略来避免在训练期间捕获冗余信息。我们将 AD-GCL 与理论解释相结合,并基于可训练的边缘下降图增强设计了一个实用的实例。通过与最先进的 GCL 方法相比,我们通过实验验证了 AD-GCL ,在 18 个不同的基准数据集的任务中,在无监督学习中实现了高达 14%、在迁移学习中高达 6% 和在半监督学习设置中的 3% 的性能提升。
AD-GCL 由两个组件组成:第一个组件包含一个 GNN 编码器,它采用 InfoMax 来最大化原始图及其增强图的表示之间的对应/互信息。第二个组件包含一个基于 GNN 的增强器, 旨在优化增强策略以尽可能减少原始图中的冗余信息。 AD-GCL 本质上允许编码器捕获最少的足够信息来区分数据集中的图形。我们进一步提供了 AD-GCL 的理论解释。我们表明,通过对增强器的搜索空间进行一定的正则化,AD-GCL 可以产生与下游任务相关的信息的下限保证,同时保持原始图中冗余信息的上限保证, 这符合信息瓶颈(IB)原则的目标。
二、AD-GCL 的理论动机和制定
等式3中的 InfoMax 原理对于一般表示学习在实践中可能会出现问题。 Tschannen 等人已经表明,对于图像分类,捕获与图像标签完全无关的信息的表示也能够最大化互信息, 但这种表示对于图像分类绝对没有用。在图表示学习中也可以观察到类似的问题,如下图所示:
我们考虑数据集 ogbg-molbace 中的图的二元图分类问题。两个具有完全相同架构的 GNN 编码器被训练以保持图表示和输入图之间的互信息最大化,但同时一个 GNN 编码器由随机图标签进一步作监督。尽管由随机标签监督的 GNN 编码器仍然在每个输入图与其表示(即互信息最大化)之间保持一对一的对应关系,但我们可能会在对下游ground-truth标签进行评估时观察到该 GNN 编码器的显著性能退化。
这一观察激励我们重新思考什么是好的图表示。最近,信息瓶颈(IB)已应用于学习图表示。具体来说, 图信息瓶颈(GIB)的目标如下:
InfoMax 和 GIB 的区别:InfoMax 要求最大化原始图中的信息,而 GIB 要求最小化此类信息但同时最大化与下游任务相关的信息。
不幸的是,GIB 需要来自下游任务的类标签 Y 的知识,因此不适用于只有很少或没有标签的
GNN 的自监督训练。然后,问题是如何以自监督的方式学习鲁棒且可迁移的 GNN。
为了解决这个问题,我们将开发一种 GCL 方法,该方法使用对抗学习来避免在表示学习期间捕获冗余信息。一般来说,GCL 方法使用图数据增强 (GDA) 过程来扰乱原始观察到的图并减少它们编码的信息量。然后,这些方法将 InfoMax 应用于扰动图对(使用不同的 GDA)来训练编码器 f 来捕获剩余的信息。
定义1:图数据增强(GDA)
AD-GCL:我们在GDA上优化以下目标
三、实验分析
3.1 无监督学习:
3.2 GDA模型正则化分析:
3.3 迁移学习:
我们评估由 AD-GCL 训练的 GNN 编码器在迁移学习上预测化学分子特性和生物蛋白质功能。我们按照设置并使用相同的数据集:GNN 使用自监督学习在一个数据集上进行预训练,然后在另一个数据集上进行微调以测试分布外性能。在这里,我们只考虑 AD-GCL-FIX, 因为 AD-GCL-OPT 只会有更好的性能。我们采用的基线包括没有预训练的 GIN(即,没有对第一个数据集进行自我监督训练,只有微调),InfoGraph、GraphCL、三种不同的预训练策略包括分别利用边、节点和子图上下文的边预测、节点属性掩蔽和上下文预测。
根据上表所示, AD-GCL-FIX 在 9 个数据集中的 3 个数据集中显着优于基线,并且在这 9 个数据集中实现了 2.4 的平均排名,这优于所有基线。请注意,尽管 AD-GCL 在某些数据集上仅获得第 5 名,但 AD-GCL 仍显着优于 InfoGraph和GraphCL,两者都是强大的GNN 自训练baseline。与 InfoGraph和GraphCL相比,基于领域知识和广泛的评估, AD-GCL 实现了更接近于那些基线(EdgePred、AttrMasking 和 ContextPred)。这是 相当重要的,因为我们的方法仅使用边缘下降 GDA,这再次显示了 AD-GCL 原理的有效性。
3.4 半监督学习:
最后,我们在基准 TU 数据集上对图分类的半监督学习评估 AD-GCL。
GNN 使用自监督学习在一个数据集上进行预训练,然后在同一数据集上基于 10% 的标签监督进行微调。同样,我们只考虑 AD-GCL-FIX 并将其与几个baseline进行比较:
1) 没有预训练的 GCN,它直接由 10% 的标签从头开始训练;
2) SS-GCN-A,一种通过创建随机增强引入更多标记数据然后从头开始训练的baseline;
3)一种预测方法GAE在预训练阶段利用邻接重建和 GCL 方法;
4) InfoGraph;
5) GraphCL;
请注意,这里我们必须保持编码器架构相同,因此 AD-GCL-FIX 采用 GCN 作为编码器。
四、总结
在这项工作中,作者开发了一个理论上有动机的新颖原理: AD-GCL,它超越了传统的InfoMax 目标,用于 GNN 的自监督学习。与下游任务无关的最佳 GNN 编码器是那些捕获最少足够信息来识别数据集中每个图的编码器。为了实现这一目标,AD-GCL 建议通过以对抗方式优化图增强来更好地进行图对比学习。实验结果表明,ADGCL优于InfoGraph和GraphCL等强大的GNN 自训练baseline。
最后欢迎大家关注我的微信公众号:对白的算法屋(duibainotes),跟踪NLP、推荐系统和对比学习等机器学习领域前沿,日常还会分享我的创业心得和人生感悟。想进一步交流的同学也可以加我的微信「duibai996」备注知乎+NLP,我拉你进「NLP前沿算法交流群」,群里的讨论氛围非常好~
推荐
对白:ESimCSE:无监督语义新SOTA,引入动量对比学习扩展负样本,效果远超SimCSE
对白:对比学习(Contrastive Learning)最新综述
对白:谷歌、阿里、腾讯等在大规模图神经网络上必用的GNN加速算法
对白:万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展
对白:机器学习新宠:对比学习论文实现大合集,60多篇分门别类,从未如此全面
对白:推荐系统中不得不学的对比学习(Contrastive Learning)方法
对白:对比学习(Contrastive Learning)在CV与NLP领域中的研究进展
对白:ICLR2021对比学习(Contrastive Learning)NLP领域论文进展梳理
边栏推荐
- C # image difference comparison: image subtraction (pointer method, high speed)
- Wxml template syntax
- Wechat H5 official account to get openid climbing account
- 嗨 FUN 一夏,与 StarRocks 一起玩转 SQL Planner!
- Configuration and startup of kubedm series-02-kubelet
- notepad++
- [Niuke brush questions day4] jz55 depth of binary tree
- Introduction Guide to stereo vision (1): coordinate system and camera parameters
- Transfer learning and domain adaptation
- Blue Bridge Cup provincial match simulation question 9 (MST)
猜你喜欢
Huber Loss
22-07-04 西安 尚好房-项目经验总结(01)
Priority queue (heap)
Svgo v3.9.0+
[code practice] [stereo matching series] Classic ad census: (4) cross domain cost aggregation
[Niuke brush questions day4] jz55 depth of binary tree
Progressive JPEG pictures and related
Hi Fun Summer, play SQL planner with starrocks!
微信H5公众号获取openid爬坑记
利用请求头开发多端应用
随机推荐
Confusing basic concepts member variables local variables global variables
Creation and reference of applet
驾驶证体检医院(114---2 挂对应的医院司机体检)
The location search property gets the login user name
信息与熵,你想知道的都在这里了
Use and programming method of ros-8 parameters
Hosting environment API
Multiple linear regression (sklearn method)
[beauty of algebra] solution method of linear equations ax=0
编辑器-vi、vim的使用
Chris LATTNER, the father of llvm: why should we rebuild AI infrastructure software
Jenkins pipeline method (function) definition and call
Introduction Guide to stereo vision (1): coordinate system and camera parameters
Golang foundation - the time data inserted by golang into MySQL is inconsistent with the local time
Programming implementation of ROS learning 6 -service node
C#图像差异对比:图像相减(指针法、高速)
太不好用了,长文章加图文,今后只写小短文
Illustrated network: what is gateway load balancing protocol GLBP?
Ros-10 roslaunch summary
[code practice] [stereo matching series] Classic ad census: (4) cross domain cost aggregation