当前位置:网站首页>YaLM 100B:来自俄罗斯Yandex的1000亿参数开源大模型,允许商业用途
YaLM 100B:来自俄罗斯Yandex的1000亿参数开源大模型,允许商业用途
2022-06-27 01:48:00 【智源社区】
GitHub地址: https://github.com/yandex/YaLM-100B (才发布几天,已经有2400颗星了)
Yandex是俄罗斯搜索巨头,官方博客中这样介绍:
一年多来,我们一直在 Alice 语音助手和 Yandex 搜索中使用 YaLM 系列语言模型。 今天,我们将开源最大的 YaLM 模型,有1000亿个参数。我们花了 65 天的时间在 800 个 A100 显卡上和 1.7 TB 在线文本、书籍和无数其他资源上训练这一模型。我们在 GitHub 上发布了模型和有用的材料,采用 Apache 2.0 许可,允许研究和商业用途。它是目前世界上最大的可自由使用的英语 GPT 类神经网络。
博客中还非常良心地介绍了模型训练加速的很多经验,包括如何寻找瓶颈、使用快速数据类型、加速GPU上的操作、减少内存访问、禁用Dropout、通信、ZeRO优化器等等,推荐阅读。
边栏推荐
- Simply learn the entry-level concepts of googlecolab
- Oracle/PLSQL: Substr Function
- 【毕业季】角色转换
- Oracle/PLSQL: From_ Tz function
- markdown表格(合并)
- memcached基础15
- Interface test framework practice (I) | requests and interface request construction
- Oracle/PLSQL: Replace Function
- Oracle/PLSQL: NumToYMInterval Function
- Markdown table (consolidated)
猜你喜欢

参数估计——《概率论及其数理统计》第七章学习报告(点估计)

SQLite Reader 插件测试SQLite语法

Did your case really pass?

XSS notes (Part 2)

你的case真的pass了吗?

Analysis of ideal L9 product power: the price is 459800 yuan, the four cylinder engine is adopted, and the endurance is 1315km

博日科技招股书失效,中金公司已停止对其辅导,放弃港交所上市?

I encountered some problems when connecting to the database. How can I solve them?

BS-GX-016基于SSM实现教材管理系统

Learn the most basic operation of discodiffusion
随机推荐
Shell脚本系列篇(1) 入门
Memcached basics 13
SQLite Reader 插件测试SQLite语法
UVM中config_db机制的使用方法
NOKOV动作捕捉系统使多场协同无人机自主建造成为可能
Oracle/PLSQL: Soundex Function
BS-GX-016基于SSM实现教材管理系统
Memcached basics 15
Oracle/PLSQL: HexToRaw Function
Did your case really pass?
每日刷题记录 (五)
lottie.js创意开关按钮动物头像
宁愿去996也不要待业在家啦!24岁,失业7个月,比上班更惨的,是没班可上
Cookie, sessionstorage, localstorage differences
Amazon elasticache quickly builds a cache service cluster, which is fast
别被洗脑了,这才是90%中国人的工资真相
XSS attack (note)
On the operation mechanism of numpy array
Parameter transfer method between two pages
参数估计——《概率论及其数理统计》第七章学习报告(点估计)