当前位置:网站首页>pytorch训练进程被中断了
pytorch训练进程被中断了
2022-07-05 11:13:00 【IMQYT】
吓死我了,训练3天的模型的进程被自己手欠杀了,差点就哭了,租了一星期的服务器的钱打水漂了吗,时间都白费了吗,还能不能补救啊!第一次遇到这种情况,而且自己的代码运行很慢了(RTXA5000,按理说不慢才对,数据量太大了,为了减少日志的IO浪费的时间,就没有写日志),只保存了模型。已经手在抖了
话不多说,如何补救呢?
代码里保存模型只用了torch.save.其他参数都没有保存。epoch什么的都没保存,找了大量的经验,终于找到补救方法
重新加载模型
path='autodl-tmp/GraphDTA-master/model_GINConvNet_kiba.model'
model.load_state_dict(torch.load(path))
这样的话,模型学习到的内容都回来了,包括loss之类的。
从这里我看到,loss确实继续了294次的训练,预测值也是一样继续294次之后的结果,还好捡回来了,但是遇到一个问题,因为我看到epoch似乎重新从1开始了,这样的话不就还要训练600次?,所以记得修改下epoch的总次数,600-294=306,虽然控制中断写这1,但再训练306次就会结束。大功告成
边栏推荐
- LSTM applied to MNIST dataset classification (compared with CNN)
- 【广告系统】Parameter Server分布式训练
- Ffmpeg calls avformat_ open_ Error -22 returned during input (invalid argument)
- Home office things community essay
- Modulenotfounderror: no module named 'scratch' ultimate solution
- 解决grpc连接问题Dial成功状态为TransientFailure
- Wechat nucleic acid detection appointment applet system graduation design completion (8) graduation design thesis template
- Wechat nucleic acid detection appointment applet system graduation design completion (6) opening defense ppt
- Beego cross domain problem solution - successful trial
- Msfconsole command encyclopedia and instructions
猜你喜欢
【Oracle】使用DataGrip连接Oracle数据库
COMSOL--建立几何模型---二维图形的建立
Bidirectional RNN and stacked bidirectional RNN
修复动漫1K变8K
关于 “原型” 的那些事你真的理解了吗?【上篇】
无密码身份验证如何保障用户隐私安全?
关于vray5.2怎么关闭日志窗口
2022 t elevator repair operation certificate examination questions and answers
R3live series learning (IV) r2live source code reading (2)
Lombok makes ⽤ @data and @builder's pit at the same time. Are you hit?
随机推荐
Ffmpeg calls avformat_ open_ Error -22 returned during input (invalid argument)
[TCP] TCP connection status JSON output on the server
Nuxt//
What about SSL certificate errors? Solutions to common SSL certificate errors in browsers
deepfake教程
Data type
解决grpc连接问题Dial成功状态为TransientFailure
C language current savings account management system
MFC pet store information management system
Three paradigms of database
R3live series learning (IV) r2live source code reading (2)
In the last process before the use of the risk control model, 80% of children's shoes are trampled here
Detailed explanation of DDR4 hardware schematic design
关于vray 5.2的使用(自研笔记)(二)
sklearn模型整理
Bracket matching problem (STL)
Detailed explanation of MATLAB cov function
COMSOL--三维随便画--扫掠
go语言学习笔记-分析第一个程序
【全网首发】(大表小技巧)有时候 2 小时的 SQL 操作,可能只要 1 分钟