摘要:Transformer 模型的放大特性(Scaling-law)引起了很多人的兴趣。然而,并没有太多研究关注不同归纳偏差和模型架构的放大特性。模型架构的规模是否不同?如果是这样,如何感应偏置影响缩放行为?如何这会影响上游(预训练)吗和下游任务(迁移)?本文进行对十个模型结构的放大行为的系统研究。例如 Transformers、Switch Transformers、Universal Transformers、Dynamic convolutions、Performers、以及最近提出的 MLP-Mixers。通过广泛的实验,我们表明(1)架构在执行缩放时确实是一个重要的考虑因素,以及(2)性能最佳的模型可以在不同的情况下波动。
当前位置:网站首页>Scaling-law和模型结构的关系:不是所有的结构放大后都能保持最好性能
Scaling-law和模型结构的关系:不是所有的结构放大后都能保持最好性能
2022-08-05 10:50:00 【智源社区】
边栏推荐
- 字节一面:TCP 和 UDP 可以使用同一个端口吗?
- 第五章:activiti流程分流判断,判断走不同的任务节点
- FPGA: Basic Getting Started LED Lights Blinking
- How to choose coins and determine the corresponding strategy research
- The fuse: OAuth 2.0 four authorized login methods must read
- PCB布局必知必会:教你正确地布设运算放大器的电路板
- Voice-based social software development - making the most of its value
- FPGA:开发环境Vivado的使用
- The founder of the DFINITY Foundation talks about the ups and downs of the bear market, and where should DeFi projects go?
- Introduction to SD NAND Flash!
猜你喜欢
RT - Thread record (a, RT, RT Thread version - Thread Studio development environment and cooperate CubeMX quick-and-dirty)
2022 Huashu Cup Mathematical Modeling Question A Optimization Design Ideas for Ring Oscillators Code Sharing
Introduction to SD NAND Flash!
智能算力的枢纽如何构建?中国云都的淮海智算中心打了个样
登录功能和退出功能(瑞吉外卖)
The founder of the DFINITY Foundation talks about the ups and downs of the bear market, and where should DeFi projects go?
【深度学习】mmclassification mmcls 实战多标签分类任务教程,分类任务
今天告诉你界面控件DevExpress WinForms为何弃用经典视觉样式
用KUSTO查询语句(KQL)在Azure Data Explorer Database上查询LOG实战
电气工程的标准是什么
随机推荐
SkiaSharp 之 WPF 自绘 投篮小游戏(案例版)
Leetcode刷题——623. 在二叉树中增加一行
提取人脸特征的三种方法
Chapter 4: activiti RuntimeService settings get and get process variables, and the difference from taskService, set process variables when starting and completing tasks [easy to understand]
Dynamics 365Online PDF导出及打印
用KUSTO查询语句(KQL)在Azure Data Explorer Database上查询LOG实战
SQL外连接之交集、并集、差集查询
一张图看懂 SQL 的各种 join 用法!
How can project cost control help project success?
Go编译原理系列6(类型检查)
L2-042 老板的作息表
华为分析&联运活动,助您提升游戏总体付费
如何选币与确定对应策略研究
Still looking for a network backup resources?Hurry up to collect the following network backup resource search artifact it is worth collecting!
拓朴排序例题
第九章:activit内置用户组设计与组任务分配和IdentityService接口的使用
化繁为简!阿里新产亿级流量系统设计核心原理高级笔记(终极版)
反射修改jsessionid实现Session共享
Is digital transformation a business buy-in?
MySQL 中 auto_increment 自动插入主键值