当前位置:网站首页>【MindSpore】多卡训练保存权重问题
【MindSpore】多卡训练保存权重问题
2022-07-30 19:04:00 【小乐快乐】
问题描述:
多卡训练的epoch更多吗?单卡训练只需要5个epoch就可以训练好,8卡训练反而需要85epoch?
训练采用数据并行模式。
如下图,我按rank id分开保存的权重是单卡训练的还是多卡合并的结果?/0/crnn-85_4.ckpt和 /1/crnn-85_4.ckpt是同样的吧?

数据并行,每张卡上的ckpt数据是一样的。
/0/crnn-85_4.ckpt和 /1/crnn-85_4.ckpt 应该是一样的。(只有bn的moving_mean和moving_variance可能有差别,但是不影响推理)
单卡训练只需要5个epoch就可以训练好,8卡训练反而需要85epoch?
这个结论是如何来的呢?比较loss值?
每隔一定step 验证一次模型,发现多卡训练反而需要更多epoch才能达到同样精度.单卡可以5epoch达到0.9,多卡需要40-50epoch。学习率,batchsize不变情况下
我的数据集很小,训练集只有5000样本。batchsize是32.验证码集样本500. 学习率是0.0001。是不是数据集小了,切分数据集反而导致每张卡更难收敛,需要的epoch更多?
解决方案:
batch size一致,是总batch一致,还是单卡的bs和数据并行的其中一张卡bs一致呢。如果是第二种情况,那么数据并行的总bs是比单卡大的,所以收敛会变慢,需要适当调整学习率
边栏推荐
- 第十七届“振兴杯”全国青年 职业技能大赛——计算机程序设计员(云计算平台与运维)参赛回顾与总结
- Recommendation | People who are kind to you, don't repay them by inviting them to eat
- 【PHPWord】Quick Start of PHPWord in PHPOffice Suite
- 自然语言处理nltk
- LeetCode每日一题(1717. Maximum Score From Removing Substrings)
- 【网站放大镜效果】两种方式实现
- scrapy基本使用
- vxe-table实现复选框鼠标拖动选中
- What is a RESTful API?
- 不同的路径依赖
猜你喜欢

Scrapy框架介绍

SwiftUI iOS Boutique Open Source Project Complete Baked Food Recipe App based on SQLite (tutorial including source code)

第十七届“振兴杯”全国青年 职业技能大赛——计算机程序设计员(云计算平台与运维)参赛回顾与总结

浅聊对比学习(Contrastive Learning)第一弹

Pytorch foundation -- tensorboard use (1)

【hbuilder】运行不了部分项目 , 打开终端 无法输入指令

中集世联达工业级成熟航运港口人工智能AI产品规模化应用,打造新一代高效能智慧港口和创新数字港口,全球港航人工智能能领军者中集飞瞳

【Pointing to Offer】Pointing to Offer 22. The kth node from the bottom in the linked list

解决终极bug,项目最终能顺利部署上线。

NXP IMX8QXP更换DDR型号操作流程
随机推荐
什么是 RESTful API?
【Pointing to Offer】Pointing to Offer 18. Delete the node of the linked list
golang日志库zerolog使用记录
深入浅出边缘云 | 3. 资源配置
The use of terminal split screen tool Terminalx
【hbuilder】运行不了部分项目 , 打开终端 无法输入指令
Witness the magical awakening of the mini world in HUAWEI CLOUD
kotlin by lazy
Correct pose of Vulkan open feature
【总结】1396- 60+个 VSCode 插件,打造好用的编辑器
荐号 | 对你有恩的人,不要请吃饭来报答
MindSpore:【模型训练】【mindinsight】timeline的时间和实际用时相差很远
Multiple instances of mysql
第14章 类型信息
高并发秒杀项目总结
防抖和节流有什么区别,分别用于什么场景?
MindSpore:【JupyterLab】查看数据时报错
延时队列优化 (2)
Basic use of scrapy
node封装一个控制台进度条插件