当前位置:网站首页>PyTorch分布式backends
PyTorch分布式backends
2022-08-02 19:42:00 【harry_tea】
DistributedDataParallel(DDP)
Backend
在Pytorch进行分布式训练中,需要在不同的进程间进行通信,完成模型训练过程中参数的传递,主要考虑通信后端和通信模式选择,这要依赖IPC通信机制,这些通信机制是由Pytorch之外的第三方实现的,目前一共支持三种: Pytorch backends
- nccl——NVIDIA(GPU训练推荐)
- gloo——Facebook
- mpi——OpenMPI
Initialization Methods
通信方法,目前主要有三种
- TCP initialization :init_method=‘tcp://10.1.1.20:23456’
- Shared file-system initialization:init_method=‘file:///mnt/nfs/sharedfile’
- env
边栏推荐
猜你喜欢

技术分享 | Apache Linkis 快速集成网页IDE工具 Scriptis

太魔人招新啦|快来加入我们吧!

【Psychology · Characters】Issue 1

PG's SQL execution plan

Meta 与苹果的元宇宙碰撞

Three.js入门
分享一个 web 应用版本监测 (更新) 的工具库

Parse the commonly used methods in the List interface that are overridden by subclasses

AI Scientist: Automatically discover hidden state variables of physical systems

Office2021 安装MathType
随机推荐
一款好用的FAQ搭建工具
LeetCode 622 设计循环队列[数组 队列] HERODING的LeetCode之路
GNN教程:图神经网络基础知识!
【LeetCode】622. 设计循环队列
聊一聊 AS 的一些好用的功能
姑姑:给小学生出点口算题
日志框架学习
栈、队列和数组
J9 Digital Currency Theory: Identifying Web3's New Scarcity: Open Source Developers
【LeetCode】118. 杨辉三角 - Go 语言题解
Leetcode刷题——单调栈问题(739每日温度问题、496下一个更大元素I、503下一个更大元素 II)
Cannot find declaration to go to
SQL server有什么认证吗?
服务器Centos7 静默安装Oracle Database 12.2
【LeetCode】1374. 生成每种字符都是奇数个的字符串
es 读流程源码解析
TPAMI2022 | TransCL:基于Transformer的压缩学习,更灵活更强大
线性表(顺序表和链表)
Redis 5 种数据结构及对应使用场景
SQL-UDT是什么功能?