当前位置:网站首页>在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练
在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练
2020-11-07 20:15:00 【InfoQ】
当前,我们可以使用多种技术通过少量数据训练出深度学习模型,具体包括针对图像分类任务的迁移学习、少样本学习甚至是一次性学习等,也可以基于预训练的BERT或GPT2模型对语言模型进行微调。但是,在部分应用用例中我们仍然需要引入大量训练数据。例如,如果当前图像与ImageNet数据集内的图像完全不同,或者当前语言语料库只针对特定领域、而非通用类型,那么单凭迁移学习将很难带来理想的模型性能。作为深度学习研究人员,您可能需要从零开始尝试新的思路或方法。在这种情况下,我们必须使用大型数据集训练出大型深度学习模型;在找不到最佳训练方法的情况下,整个过程可能需要几天、几周甚至是几个月。
在本文中,我们将一同了解如何在Amazon SageMaker的单一实例之上运行多GPU训练,并讨论如何在Amazon SageMaker上实现高效多GPU与多节点分布式训练。
原文链接:【https://www.infoq.cn/article/0867pYEmzviBfvZxW37k】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/0867pYEmzviBfvZxW37k?utm_source=rss&utm_medium=article
边栏推荐
- git 提交规范
- Knowledge competition of garbage classification
- Andque.
- Using thread communication to solve the problem of cache penetrating database avalanche
- MongoDB下,启动服务时,出现“服务没有响应控制功能”解决方法
- Yum [errno 256] no more mirrors to try solution
- Advanced concurrent programming series 9 (lock interface analysis)
- The JS solution cannot be executed after Ajax loads HTML
- How to solve the problem of blank page in Google Chrome browser
- Implementation of nginx version of microservice architecture
猜你喜欢
awk实现类sql的join操作
Idea activation to 2089 failure
Application and principle of handlermethodargumentresolver
Andque.
Huawei HCIA notes
2018中国云厂商TOP5:阿里云、腾讯云、AWS、电信、联通 ...
9.集群之间服务通信 RoutingMesh
STlink下载出现st-link usb communication error解决方法
Let you have a deep understanding of gitlab CI / CD principle and process
全网最硬核讲解计算机启动流程
随机推荐
Business Facade 与 Business Rule
7.Swarm搭建集群
工作1-3年的程序员,应该具备怎么样的技术能力?该如何提升?
不要把异常当做业务逻辑,这性能可能你无法承受
大数据算法——布隆过滤器
【笔记】Error while loading PyV8 binary: exit code 1解决方法
8.Swarm创建维护和水平扩展Service
ajax 载入html后不能执行其中的js解决方法
C语言I博客作业03
PHP后门隐藏技巧
7. Swarm builds clusters
2018中国云厂商TOP5:阿里云、腾讯云、AWS、电信、联通 ...
PHP安全:变量的前世今生
How does LeadTools detect, read and write barcodes
Rech8.0 learning days 12 rh134
vscode 配置
Is blazor ready to serve the enterprise?
Insomnia all night
谈了多年的数字化转型,为什么还有很多企业依然“口头管理”
11. Service update