当前位置:网站首页>ICML 2022 | 探索语言模型的最佳架构和训练方法
ICML 2022 | 探索语言模型的最佳架构和训练方法
2022-07-05 14:48:00 【智源社区】
本文介绍两篇发表于 ICML 2022 的论文,研究者都主要来自于 Google。两篇论文都是很实践性的分析论文。和常见的论文在模型做创新不一样,两篇论文都是针对现有 NLP 语言模型的架构和训练方法、探索其在不同场景下的优劣并总结出经验规律。
在这里笔者优先整理一下两篇论文的主要实验结论:
1. 第一篇论文发现了虽然 encoder-decoder 占据了机器翻译的绝对主流,但在模型参数量较大时,合理地设计语言模型 LM 可以使其与传统的 encoder-decoder 架构做机器翻译任务的性能不相上下;且 LM 在 zero-shot 场景下、在小语种机器翻译上性能更好、在大语种机器翻译上也具有 off-target 更少的优点。
2. 第二篇论文发现在不做 finetuning 的情况下,Causal decoder LM 架构+full language modeling 训练在 zero-shot 任务上表现最好;而在有多任务 prompt finetuning 时,则是 encoder-decoder 架构+masked language modeling 训练有最好的 zero-shot 性能。
论文1:Examining Scaling and Transfer of Language Model Architectures for Machine Translation
链接:https://arxiv.org/abs/2202.00528
论文2:What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?
边栏推荐
- Matrix chain multiplication dynamic programming example
- FR练习题目---综合题
- 【NVMe2.0b 14-9】NVMe SR-IOV
- Shanghai under layoffs
- CPU design practice - Chapter 4 practical task 2 using blocking technology to solve conflicts caused by related problems
- 安装配置Jenkins
- 你童年的快乐,都是被它承包了
- maxcompute有没有能查询 表当前存储容量的大小(kb) 的sql?
- I want to inquire about how to ensure data consistency when a MySQL transaction updates multiple tables?
- 在Pytorch中使用Tensorboard可视化训练过程
猜你喜欢
Dark horse programmer - software testing -10 stage 2-linux and database -44-57 why learn database, description of database classification relational database, description of Navicat operation data, de
How to paste the contents copied by the computer into mobaxterm? How to copy and paste
CPU设计相关笔记
Interview shock 62: what are the precautions for group by?
Niuke: intercepting missiles
Pointer operation - C language
选择排序和冒泡排序
Security analysis of Web Architecture
两个BI开发,3000多张报表?如何做的到?
IPv6与IPv4的区别 网信办等三部推进IPv6规模部署
随机推荐
Microframe technology won the "cloud tripod Award" at the global Cloud Computing Conference!
危机重重下的企业发展,数字化转型到底是不是企业未来救星
Implement a blog system -- using template engine technology
CPU design practice - Chapter 4 practical task 2 using blocking technology to solve conflicts caused by related problems
【華為機試真題詳解】歡樂的周末
用 Go 跑的更快:使用 Golang 为机器学习服务
【NVMe2.0b 14-9】NVMe SR-IOV
CPU design related notes
PHP - fatal error: allowed memory size of 314572800 bytes exhausted
黑马程序员-软件测试-10阶段2-linux和数据库-44-57为什么学习数据库,数据库分类关系型数据库的说明Navicat操作数据的说明,Navicat操作数据库连接说明,Navicat的基本使用,
maxcompute有没有能查询 表当前存储容量的大小(kb) 的sql?
长列表优化虚拟滚动
Visual task scheduling & drag and drop | scalph data integration based on Apache seatunnel
[recruitment position] infrastructure software developer
Penetration testing methodology
Photoshop plug-in action related concepts actionlist actiondescriptor actionlist action execution load call delete PS plug-in development
Fr exercise topic --- comprehensive question
STM32+BH1750光敏传感器获取光照强度
Fr exercise topic - simple question
MySQL之CRUD