当前位置:网站首页>在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练
在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练
2020-11-07 20:15:00 【InfoQ】
当前,我们可以使用多种技术通过少量数据训练出深度学习模型,具体包括针对图像分类任务的迁移学习、少样本学习甚至是一次性学习等,也可以基于预训练的BERT或GPT2模型对语言模型进行微调。但是,在部分应用用例中我们仍然需要引入大量训练数据。例如,如果当前图像与ImageNet数据集内的图像完全不同,或者当前语言语料库只针对特定领域、而非通用类型,那么单凭迁移学习将很难带来理想的模型性能。作为深度学习研究人员,您可能需要从零开始尝试新的思路或方法。在这种情况下,我们必须使用大型数据集训练出大型深度学习模型;在找不到最佳训练方法的情况下,整个过程可能需要几天、几周甚至是几个月。
在本文中,我们将一同了解如何在Amazon SageMaker的单一实例之上运行多GPU训练,并讨论如何在Amazon SageMaker上实现高效多GPU与多节点分布式训练。
原文链接:【https://www.infoq.cn/article/0867pYEmzviBfvZxW37k】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/0867pYEmzviBfvZxW37k?utm_source=rss&utm_medium=article
边栏推荐
- Knowledge competition of garbage classification
- How to solve the problem of blank page in Google Chrome browser
- CPU瞒着内存竟干出这种事
- Business facade and business rule
- 微服務 - 如何進行服務限流和熔斷
- C语言I博客作业03
- Blazor 準備好為企業服務了嗎?
- 【原創】ARM平臺記憶體和cache對xenomai實時性的影響
- Win7 how to quickly type CMD and get to the required directory
- python3操作gitlab
猜你喜欢
pc端与移动端适配解决方案之rem
Talk about sharing before paying
频收罚单的浦发银行:增收不增利,曾遭骗贷数亿元,内控缺位?
chrome浏览器跨域Cookie的SameSite问题导致访问iframe内嵌页面异常
Exclusive interview with alicloud database of | 2020 PostgreSQL Asia Conference: Wang Xu
gitlab 持续集成开发环境之CI/CD
Rech8.0 learning days 12 rh134
深入web workers (上)
[note] error while loading pyv8 binary: exit code 1 solution
Jenkins pipline stage setting timeout
随机推荐
利用线程通信、解决缓存穿透数据库雪崩
CPU瞒着内存竟干出这种事
如何利用PopupWindow实现弹出菜单并解决焦点获取以及与软键盘冲突问题
Exception calling 'downloadstring' with '1' arguments: 'operation timed out'
Kubernetes (1): introduction to kubernetes
【QT】QThread原始碼淺析
C語言重點——指標篇(一文讓你完全搞懂指標)| 從記憶體理解指標 | 指標完全解析
7.Swarm搭建集群
K-vim installation and the ycmd server shut down (restart with ': ycmrestartserver')
Dynamsoft barcode reader v7.5!
The samesite problem of cross domain cookie of Chrome browser results in abnormal access to iframe embedded pages
win7如何快速打cmd并到达所要的目录
The official 1909 version of win10 cannot open the real-time protection solution of virus and threat protection in windows security center.
Using thread communication to solve the problem of cache penetrating database avalanche
Awk implements SQL like join operation
.NETCore3.1+Vue.js打造的低代码工作流引擎
jenkins pipline stage 设置超时
What should be considered in the promotion plan outside the station?
CI / CD of gitlab continuous integrated development environment
谈了多年的数字化转型,为什么还有很多企业依然“口头管理”