当前位置:网站首页>迁移学习冻结网络的方法:
迁移学习冻结网络的方法:
2022-08-01 10:59:00 【Wsyoneself】
说明:pytorch(1-3),TensorFlow(4)
fine tune就是冻结网络前面的层,然后训练最后一层
- 给优化器传入所有参数,但将要冻结层的参数的
requires_grad
置为False:
optimizer = optim.SGD(model.parameters(), lr=1e-2) # 传入的是所有的参数 for name, param in model.named_parameters(): if 要冻结的网络层的名字(即name的值): param.requires_grad = False
- 优化器传入不冻结的网络层的参数:
optimizer = optim.SGD(model.不冻结的网络层的name.parameters(), lr=1e-2) # 优化器只传入fc2的参数
- 最优做法是:优化器只传入requires_grad=True的参数,占用的内存会更小一点,效率也会更高。代码及结合1和2
节省显存:不将不更新的参数传入
optimizer
提升速度:将不更新的参数的
requires_grad
设置为False
,节省了计算这部分参数梯度的时间
- 代码如下:
#定义优化算子 optimizer = tf.train.AdamOptimizer( 1e-3) #选择待优化的参数 output_vars = tf.get_collection(tf.GraphKyes.TRAINABLE_VARIABLES, scope= 'outpt') train_step = optimizer.minimize(loss_score,var_list = output_vars)
把需要更新梯度的层放在tf.get_collection这个函数里面,不需要更新的不放进去。
边栏推荐
- 【随心笔记】假期快过去了,都干了点什么
- How I secured 70,000 ETH and won a 6 million bug bounty
- 博弈论(Depu)与孙子兵法(42/100)
- Solve vscode input! Unable to quickly generate skeletons (three methods for the new version of vscode to quickly generate skeletons)
- Mini Program Graduation Works WeChat Food Recipes Mini Program Graduation Design Finished Products (3) Background Functions
- Online - GCeasy GC log analysis tools
- NIO‘s Sword(思维,取模,推公式)
- WPF 截图控件之绘制箭头(五)「仿微信」
- CTFshow,命令执行:web37
- JWT
猜你喜欢
小程序毕设作品之微信美食菜谱小程序毕业设计成品(1)开发概要
mysql进阶(二十二)MySQL错误之Incorrect string value中文字符输入错误问题分析
Drawing arrows of WPF screenshot control (5) "Imitation WeChat"
CTFshow,命令执行:web34、35、36
.NET性能优化-使用SourceGenerator-Logger记录日志
博弈论(Depu)与孙子兵法(42/100)
【likeshop】回收租凭系统100%开源无加密 商城+回收+租赁
语音聊天app源码——语音聊天派对
DBPack SQL Tracing 功能及数据加密功能详解
Promise learning (4) The ultimate solution for asynchronous programming async + await: write asynchronous code in a synchronous way
随机推荐
Introduction to data warehouse layering (real-time data warehouse architecture)
MacOS下postgresql(pgsql)数据库密码为什么不需要填写或可以乱填写
C#/VB.NET convert PPT or PPTX to image
Android 安全与防护策略
activiti工作流的分页查询避坑
小程序毕设作品之微信美食菜谱小程序毕业设计成品(3)后台功能
万字解析:vector类
机器学习 | MATLAB实现支持向量机回归RegressionSVM参数设定
ACL 2022 | 文本生成的相关前沿进展
For small applications, which database is better to use?
Google Earth Engine——给影像添加一个属性对于单景的时间序列并返回影像
我是如何保护 70000 ETH 并赢得 600 万漏洞赏金的
WPF 截图控件之绘制箭头(五)「仿微信」
7/31 训练日志
OpenHarmony高校技术俱乐部计划发布
华硕和微星多款产品将升级英特尔Arc A380和A310显卡
RK3399平台开发系列讲解(内核入门篇)1.52、printk函数分析 - 其函数调用时候会关闭中断
gc的意义和触发条件
深度学习 | MATLAB实现GRU门控循环单元gruLayer参数设定
mysql进阶(二十二)MySQL错误之Incorrect string value中文字符输入错误问题分析