当前位置：网站首页>在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

2020-11-07 20:15:00 【InfoQ】

Original URL: https://aws.amazon.com/cn/blogs/machine-learning/multi-gpu-and-distributed-training-using-horovod-in-amazon-sagemaker-pipe-mode/

当前，我们可以使用多种技术通过少量数据训练出深度学习模型，具体包括针对图像分类任务的迁移学习、少样本学习甚至是一次性学习等，也可以基于预训练的BERT或GPT2模型对语言模型进行微调。但是，在部分应用用例中我们仍然需要引入大量训练数据。例如，如果当前图像与ImageNet数据集内的图像完全不同，或者当前语言语料库只针对特定领域、而非通用类型，那么单凭迁移学习将很难带来理想的模型性能。作为深度学习研究人员，您可能需要从零开始尝试新的思路或方法。在这种情况下，我们必须使用大型数据集训练出大型深度学习模型；在找不到最佳训练方法的情况下，整个过程可能需要几天、几周甚至是几个月。

在本文中，我们将一同了解如何在Amazon SageMaker的单一实例之上运行多GPU训练，并讨论如何在Amazon SageMaker上实现高效多GPU与多节点分布式训练。

原文链接:【https://www.infoq.cn/article/0867pYEmzviBfvZxW37k】。未经作者许可，禁止转载。

版权声明
本文为[InfoQ]所创，转载请带上原文链接，感谢
https://www.infoq.cn/article/0867pYEmzviBfvZxW37k?utm_source=rss&utm_medium=article

当前位置：网站首页>在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

边栏推荐

猜你喜欢

随机推荐