当前位置:网站首页>训练集Loss收敛,但是测试集Loss震荡的厉害?
训练集Loss收敛,但是测试集Loss震荡的厉害?
2022-08-05 11:31:00 【GIS与Climate】
问题场景
今天在调试模型的时候发现训练集上Loss已经收敛了,但是在验证集上Loss震荡的比较厉害,如下图所示:

原因分析
查阅网上各种博客后发现验证集Loss震荡的原因可能有如下:
数据问题,比如训练集和验证集相差太大,数据量太小; batchsize太小,模型学习的规律不够“普适”; loss函数不合适; 学习率太大,模型陷入了局部最优点; 模型的网络结构存在问题; ......
知道了大概的原因之后,就可以逐个进行排查了。
数据上,检查自己的数据集train和valid的划分情况,基本上数据的分布应该是差不多的;数据量上1w+的图像,应该也还行; loss函数换了其他的进行试验还是一样的效果; 学习率使用动态调整策略,应该没什么问题(后面测试的时候即便调整了初试学习率,最后结果还是类似); 模型使用的是比较经典的超分模型,应该问题不大; 调整了下bs,从32调整到48,发现震荡变小了,效果如下图:


所以最终分析应该是batchsize太小的原因,如果可以再增大点估计效果更好,但是奈何GPU显存不够了。
总结
如果遇到Loss在训练集上已经收敛,但是在验证集上震荡比较厉害的情况,要按照可能的原因逐条分析,并且进行尝试。尝试的时候也要注意先进行理论上的分析再跑模型,不然的话可能也是白白浪费算力。

参考
【1】https://blog.csdn.net/qq_40689236/article/details/106794155
【2】https://zhuanlan.zhihu.com/p/483488388
边栏推荐
- 华为分析&联运活动,助您提升游戏总体付费
- 问题征集丨ECCV 2022中国预讲会 · Panel专题研讨会
- Http-Sumggling Cache Vulnerability Analysis
- 微服务结合领域驱动设计落地
- hdu2097 nyoj414 sky数 (进制转换)
- SkiaSharp 之 WPF 自绘 投篮小游戏(案例版)
- How to write a blog with Golang - Milu.blog development summary
- Linux: Remember to install MySQL8 on CentOS7 (blog collection)
- 2022杭电杯超级联赛(5)
- 记2022年七夕感慨
猜你喜欢
5G NR system messages
2022杭电多校联赛第六场 题解
Http-Sumggling缓存漏洞分析
Letter from Silicon Valley: Act fast, Facebook, Quora and other successful "artifacts"!
莅临GOPS大会龙智展位,获取Forrester最新报告:《Forrester Wave:2021年第四季度企业服务管理报告》
【加密解密】明文加密解密-已实现【已应用】
2022 CCF国际AIOps挑战赛决赛暨AIOps研讨会报名已开启
DocuWare平台——文档管理的内容服务和工作流自动化的平台详细介绍(下)
反射修改jsessionid实现Session共享
力扣330 按要求补齐数组(贪心)
随机推荐
普通二本毕业八年,京东就职两年、百度三年,分享大厂心得
记2022年七夕感慨
5G NR 系统消息
Http-Sumggling缓存漏洞分析
Detailed explanation of PPOCR detector configuration file parameters
Discover the joy of C language
Machine Learning - Logistic Regression
导火索:OAuth 2.0四种授权登录方式必读
Integration testing of software testing
【OpenCV】-仿射变换
Android 开发用 Kotlin 编程语言一 基本数据类型
Guys, I am a novice. I use flinksql to write a simple count of user visits according to the document, but it ends after executing it once.
机器学习——逻辑回归
el-menu箭头改为右下
PHP高级检索功能的实现以及动态拼接SQL
HDD杭州站•ArkUI让开发更灵活
What do T and Z in the time format 2020-01-13T16:00:00.000Z represent and how to deal with them
苹果Meta都在冲的Pancake技术,中国VR团队YVR竟抢先交出产品答卷
ECCV 2022 | 视听分割:全新任务,助力视听场景像素级精细化理解
【AGC】增长服务1-远程配置示例