当前位置:网站首页>在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练
在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练
2020-11-07 20:15:00 【InfoQ】
当前,我们可以使用多种技术通过少量数据训练出深度学习模型,具体包括针对图像分类任务的迁移学习、少样本学习甚至是一次性学习等,也可以基于预训练的BERT或GPT2模型对语言模型进行微调。但是,在部分应用用例中我们仍然需要引入大量训练数据。例如,如果当前图像与ImageNet数据集内的图像完全不同,或者当前语言语料库只针对特定领域、而非通用类型,那么单凭迁移学习将很难带来理想的模型性能。作为深度学习研究人员,您可能需要从零开始尝试新的思路或方法。在这种情况下,我们必须使用大型数据集训练出大型深度学习模型;在找不到最佳训练方法的情况下,整个过程可能需要几天、几周甚至是几个月。
在本文中,我们将一同了解如何在Amazon SageMaker的单一实例之上运行多GPU训练,并讨论如何在Amazon SageMaker上实现高效多GPU与多节点分布式训练。
原文链接:【https://www.infoq.cn/article/0867pYEmzviBfvZxW37k】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/0867pYEmzviBfvZxW37k?utm_source=rss&utm_medium=article
边栏推荐
猜你喜欢

一种超参数优化技术-Hyperopt

What kind of technical ability should a programmer who has worked for 1-3 years? How to improve?

如何解决谷歌Chrome浏览器空白页的问题

About Devops seven misunderstandings, 99% of people have been hit!

【笔记】Error while loading PyV8 binary: exit code 1解决方法

DOM node operation

使用 Xunit.DependencyInjection 改造测试项目

不要把异常当做业务逻辑,这性能可能你无法承受

全网最硬核讲解计算机启动流程

从技术谈到管理,把系统优化的技术用到企业管理
随机推荐
如何高效的学习技术
C語言重點——指標篇(一文讓你完全搞懂指標)| 從記憶體理解指標 | 指標完全解析
Top 5 Chinese cloud manufacturers in 2018: Alibaba cloud, Tencent cloud, AWS, telecom, Unicom
深入web workers (上)
confd
Shanghai Pudong Development Bank, which frequently receives penalty tickets, has been cheated by hundreds of millions of yuan in loans, and lacks of internal control?
Using thread communication to solve the problem of cache penetrating database avalanche
vue踩坑:axios使用this指针
From technology to management, the technology of system optimization is applied to enterprise management
阿里terway源码分析
如何解决谷歌Chrome浏览器空白页的问题
Application and principle of handlermethodargumentresolver
9. Routingmesh service communication between clusters
滴滴的分布式ID生成器(Tinyid),好用的一批
git 提交规范
Advanced concurrent programming series 9 (lock interface analysis)
Business facade and business rule
带你深入了解 GitLab CI/CD 原理及流程
深入浅出大前端框架Angular6实战教程(Angular6、node.js、keystonejs、
Mac新手必备小技巧