当前位置:网站首页>ICML 2022 | 探索语言模型的最佳架构和训练方法

ICML 2022 | 探索语言模型的最佳架构和训练方法

2022-07-05 14:48:00 智源社区

本文介绍两篇发表于 ICML 2022 的论文,研究者都主要来自于 Google。两篇论文都是很实践性的分析论文。和常见的论文在模型做创新不一样,两篇论文都是针对现有 NLP 语言模型的架构和训练方法、探索其在不同场景下的优劣并总结出经验规律。

 

在这里笔者优先整理一下两篇论文的主要实验结论: 

 

1. 第一篇论文发现了虽然 encoder-decoder 占据了机器翻译的绝对主流,但在模型参数量较大时,合理地设计语言模型 LM 可以使其与传统的 encoder-decoder 架构做机器翻译任务的性能不相上下;且 LM 在 zero-shot 场景下、在小语种机器翻译上性能更好、在大语种机器翻译上也具有 off-target 更少的优点。 

 

2. 第二篇论文发现在不做 finetuning 的情况下,Causal decoder LM 架构+full language modeling 训练在 zero-shot 任务上表现最好;而在有多任务 prompt finetuning 时,则是 encoder-decoder 架构+masked language modeling 训练有最好的 zero-shot 性能。

 

论文1:Examining Scaling and Transfer of Language Model Architectures for Machine Translation

链接:https://arxiv.org/abs/2202.00528

 

论文2:What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?

链接:https://arxiv.org/abs/2204.05832

原网站

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/18629