当前位置:网站首页>交叉验证如何防止过拟合
交叉验证如何防止过拟合
2022-07-06 17:35:00 【ZEERO~】
1、过拟合与欠拟合定义
过拟合指的是模型在训练集上表现很好,在验证集和测试集上表现很差;
欠拟合指的是模型在训练集、测试集、验证集上表现都很差。
2、过拟合与欠拟合出现的原因分析
2.1 样本数量
我们知道,样本数量对于机器学习算法来说,假如模型适用于大数据集,那么样本数量必然是越多越好。当样本数量不足时,会出现欠拟合情况,模型在三个数据集上表现都非常差。
2.2 模型复杂度
通常来说,当我们选定模型后,例如逻辑回归,线性回归,使用的特征数量越多,模型复杂度通常就会越高。我们可以利用特征选择算法,例如MRMR、卡方检验,将特征重要性进行排序。然后依次增加特征,计算训练集和测试集的准确率和损失函数。我们一般会发现,随着特征数量的增加,训练集的准确率会逐渐趋于100%,测试集的准确率会逐渐下降。训练集的损失会逐渐下降为0,测试集的损失会逐渐增加。例如说,当训练集损失为0,而测试集损失不为0时,我们知道模型必然发生了过拟合。这样,我们就能大致判断当前模型是否发生了过拟合情况。
3、为何交叉验证可以防止过拟合
首先要说明的一点是,并不是交叉验证会使得模型复杂度降低或者怎么样而防止模型过拟合,而是说交叉验证这种行为可以让我们在训练过程中评估模型是否出现了过拟合情况。
我们知道,5折交叉验证是随机用80%的数据进行训练,20%的数据进行验证。这种情况下,如果模型发生了过拟合,
边栏推荐
- paddlehub应用出现paddle包报错的问题
- Body mass index program, entry to write dead applet project
- [HFCTF2020]BabyUpload session解析引擎
- 《安富莱嵌入式周报》第272期:2022.06.27--2022.07.03
- Neon Optimization: summary of performance optimization experience
- Can the system hibernation file be deleted? How to delete the system hibernation file
- Grc: personal information protection law, personal privacy, corporate risk compliance governance
- 深度学习框架TF安装
- Go zero micro service practical series (IX. ultimate optimization of seckill performance)
- Let's see through the network i/o model from beginning to end
猜你喜欢
LLDP兼容CDP功能配置
[100 cases of JVM tuning practice] 05 - Method area tuning practice (Part 2)
Return to blowing marshland -- travel notes of zhailidong, founder of duanzhitang
HMM 笔记
Dell笔记本周期性闪屏故障
让我们,从头到尾,通透网络I/O模型
Do you understand this patch of the interface control devaxpress WinForms skin editor?
界面控件DevExpress WinForms皮肤编辑器的这个补丁,你了解了吗?
ClickHouse字段分组聚合、按照任意时间段粒度查询SQL
Dell Notebook Periodic Flash Screen Fault
随机推荐
[100 cases of JVM tuning practice] 05 - Method area tuning practice (Part 2)
如何管理分布式团队?
Dynamic planning idea "from getting started to giving up"
pyflink的安装和测试
BFS realizes breadth first traversal of adjacency matrix (with examples)
C language - array
Taro中添加小程序 “lazyCodeLoading“: “requiredComponents“,
Pytorch中torch和torchvision的安装
[100 cases of JVM tuning practice] 04 - Method area tuning practice (Part 1)
Rainstorm effect in levels - ue5
Neon Optimization: an optimization case of log10 function
第三方跳转网站 出现 405 Method Not Allowed
让我们,从头到尾,通透网络I/O模型
Realize incremental data synchronization between MySQL and ES
Case development of landlord fighting game
Analysis of mutex principle in golang
Wood extraction in Halcon
Oracle: Practice of CDB restricting PDB resources
SuperSocket 1.6 创建一个简易的报文长度在头部的Socket服务器
前置机是什么意思?主要作用是什么?与堡垒机有什么区别?