当前位置:网站首页>引入稀疏激活机制!Uni-Perceiver-MoE显著提升通才模型的性能
引入稀疏激活机制!Uni-Perceiver-MoE显著提升通才模型的性能
2022-06-22 20:07:00 【智源社区】

论文地址:
https://arxiv.org/abs/2206.04674
构建一个如人脑一样的能同时处理所有任务的“通才”模型一直是AI领域研究员追求的目标。近来已有多个通才模型被相继提出,如商汤提出的Uni-Perceiver、阿里提出的OFA、Deepmind提出的Gato等。通过将所有任务都建模成一个统一的范式,并在多任务大规模预训练之后,通才模型不仅仅可以使用同一套模型权重同时完成多个不同的任务,还能够在不引入任何新参数时在全新任务上进行零样本推理。
尽管通才模型在模型通用性方面已经取得了长足进步,但是相较于特定于任务而设计的算法模型,通才模型往往在一些任务上有着性能下降的现象。本论文发现通才模型共享参数在优化不同任务时由于任务干扰可能存在不同的优化梯度方向,这种优化过程中梯度的不一致性将会导致参数更新的方向相较于每个任务的最优方向来说都是不确定的,从而使得网络最终性能的下降。
本篇论文旨在于消除通才模型优化过程中存在的任务干扰问题,从而提升模型在下游任务上的性能表现。一个很自然的解决办法是在不同任务间使用独立的参数 (下图),但是这种特定于任务的设计将会破坏通才模型的通用性。本篇论文选择了使用Mixture of Experts (MoE)来解决通才模型中的任务干扰。MoE是一种依赖于当前输入的条件计算方式,可以在不引入任何特定任务设计的前提下让网络自适应地稀疏激活部分子网络,从而为解决共享参数中的任务干扰提供了新思路。除此之外本论文还探讨了MoE如何选择有效的信息可靠激活子网络,从而在保持一个高效的计算效率的同时维持通才模型在新任务上的泛化能力。
为了消除通才模型中的任务干扰,本论文将MoE应用到了通才模型Uni-Perceiver中(表示为Uni-Perceiver-MoE)。实验结果发现MoE能够在引入较小的计算成本时有效去除通才模型中的任务干扰。在多数下游任务中,Uni-Perceiver-MoE表现出了极为理想的效果,仅使用1%的数据进行prompt tuning即能达到SOTA性能。此外,Uni-Perceiver-MoE在从未见过的新任务上面仍然保持着不错的zero-shot推理能力。图1和图2可视化了Uni-Perceiver-MoE稀疏激活情况。
在通才模型Uni-Perceiver中引入MoE
边栏推荐
- HarmonyOS应用开发培训第二次
- 浅析 Open API 设计规范
- 【链表中倒数第k个结点】
- 74- how to remedy the loss of Oracle to MySQL for this kind of SQL optimization?
- 微信小程序批量提交审核
- NBA季后赛对阵图
- Correspondence between int and char in C language
- Simulated 100 questions and simulated examination of hoisting machinery command examination in 2022
- Flutter System Architecture(Flutter系统架构图)
- 日本动漫作家和其部分作品
猜你喜欢

为了不曾忘却的纪念:孙剑专题

杰理之开启四声道通话近端变调问题【篇】

2022 question bank and simulated examination for work license of main principals of hazardous chemical business units

大势智慧创建倾斜模型和切割单体化

查询es分页下标超过1万

2022 chemical automation control instrument examination exercises and online simulation examination

Flutter System Architecture(Flutter系统架构图)

HarmonyOS应用开发培训第二次

【206. 反转链表】
![[redis]集群与常见错误](/img/a5/94906b62b1ec0d549f9b72ff3db7f2.png)
[redis]集群与常见错误
随机推荐
2022 chemical automation control instrument examination exercises and online simulation examination
Correspondence between int and char in C language
513. 找树左下角的值 / 剑指 Offer II 091. 粉刷房子
优化求解器 | Gurobi的MVar类:矩阵建模利器、求解对偶问题的备选方案 (附详细案例+代码)
杰理之硬件上 DACL 输出,DAC 输出左右声道的声音【篇】
[redis]redis的持久化操作
第027讲:集合:在我的世界里,你就是唯一 | 课后测试题及答案
Five uses of 87 with as
浅析 Open API 设计规范
Baijia forum Wu Zetian
第025讲:字典:当索引不好用时 | 课后测试题及答案
第032讲:异常处理:你不可能总是对的 | 课后测试题及答案
基于AI驱动大分子药物发现,「华深智药」获近5亿元A轮融资
软考必备资料大放送,全科目软考资料都给你备好了!
5分钟快速上线Web应用和API(Vercel)
杰理之MUSIC 模式获取播放文件的目录【篇】
[redis]发布与订阅
【ICML2022】利用虚拟节点促进图结构学习
513. find the value in the lower left corner of the tree / Sword finger offer II 091 Paint the house
[876. intermediate node of linked list]