当前位置:网站首页>pytorch训练进程被中断了

pytorch训练进程被中断了

2022-07-05 11:13:00 IMQYT

吓死我了,训练3天的模型的进程被自己手欠杀了,差点就哭了,租了一星期的服务器的钱打水漂了吗,时间都白费了吗,还能不能补救啊!第一次遇到这种情况,而且自己的代码运行很慢了(RTXA5000,按理说不慢才对,数据量太大了,为了减少日志的IO浪费的时间,就没有写日志),只保存了模型。已经手在抖了

话不多说,如何补救呢?

代码里保存模型只用了torch.save.其他参数都没有保存。epoch什么的都没保存,找了大量的经验,终于找到补救方法

 

 重新加载模型

        path='autodl-tmp/GraphDTA-master/model_GINConvNet_kiba.model'
        model.load_state_dict(torch.load(path))

这样的话,模型学习到的内容都回来了,包括loss之类的。

 从这里我看到,loss确实继续了294次的训练,预测值也是一样继续294次之后的结果,还好捡回来了,但是遇到一个问题,因为我看到epoch似乎重新从1开始了,这样的话不就还要训练600次?,所以记得修改下epoch的总次数,600-294=306,虽然控制中断写这1,但再训练306次就会结束。大功告成

原网站

版权声明
本文为[IMQYT]所创,转载请带上原文链接,感谢
https://blog.csdn.net/imqyt/article/details/125491109