当前位置：网站首页>pytorch训练进程被中断了

pytorch训练进程被中断了

2022-07-05 11:13:00 【IMQYT】

吓死我了，训练3天的模型的进程被自己手欠杀了，差点就哭了，租了一星期的服务器的钱打水漂了吗，时间都白费了吗，还能不能补救啊！第一次遇到这种情况，而且自己的代码运行很慢了（RTXA5000，按理说不慢才对，数据量太大了，为了减少日志的IO浪费的时间，就没有写日志），只保存了模型。已经手在抖了

话不多说，如何补救呢？

代码里保存模型只用了torch.save.其他参数都没有保存。epoch什么的都没保存，找了大量的经验，终于找到补救方法

重新加载模型

        path='autodl-tmp/GraphDTA-master/model_GINConvNet_kiba.model'
        model.load_state_dict(torch.load(path))

这样的话，模型学习到的内容都回来了，包括loss之类的。

从这里我看到，loss确实继续了294次的训练，预测值也是一样继续294次之后的结果，还好捡回来了，但是遇到一个问题，因为我看到epoch似乎重新从1开始了，这样的话不就还要训练600次？，所以记得修改下epoch的总次数，600-294=306，虽然控制中断写这1，但再训练306次就会结束。大功告成

原网站

版权声明
本文为[IMQYT]所创，转载请带上原文链接，感谢
https://blog.csdn.net/imqyt/article/details/125491109

当前位置：网站首页>pytorch训练进程被中断了

pytorch训练进程被中断了

边栏推荐

猜你喜欢

随机推荐