当前位置:网站首页>ACL2022 | bert2BERT:参数复用的高效预训练方法,显著降低超大模型的训练成本

ACL2022 | bert2BERT:参数复用的高效预训练方法,显著降低超大模型的训练成本

2022-06-10 17:34:00 智源社区

近年来各大公司在大模型上积极布局,发布了一系列千亿参数级别的超大模型,在自然语言理解、生成和推理问题上实现了质的突破。然而,超大模型的预训练是极其耗费资源的。为此,本文提出了一种新的预训练加速技术:基于模型参数复用的bert2BERT方法,它可以让大模型在初始化阶段有效继承小模型的能力,减少重复训练成本,显著提升训练效率。bert2BERT在BERT和GPT上进行了广泛的实验,在Base版本模型上分别节省45%和47%的计算成本。同时借助MindSpore和CANN计算框架能力,该方法也被应用于千亿大模型的训练。实验表明当用百亿模型加速千亿大模型的时候,以预训练loss为评判标准,bert2BERT能显著减少30%以上的训练成本。

论文链接:https://aclanthology.org/2022.acl-long.151.pdf

代码链接:https://github.com/huawei-noah/Pretrained-Language-Model

原网站

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/17875