当前位置:网站首页>RF、GBDT、XGboost特征选择方法「建议收藏」
RF、GBDT、XGboost特征选择方法「建议收藏」
2022-07-25 20:00:00 【全栈程序员站长】
大家好,又见面了,我是你们的朋友全栈君。
RF、GBDT、XGboost都可以做特征选择,属于特征选择中的嵌入式方法。比如在sklearn中,可以用属性feature_importances_去查看特征的重要度, 比如:
from sklearn import ensemble
#grd = ensemble.GradientBoostingClassifier(n_estimators=30)
grd = ensemble.RandomForestClassifier(n_estimators=30)
grd.fit(X_train,y_train)
grd.feature_importances_但是这三个分类器是如何计算出特征的重要度呢?下面来分别的说明一下。
1. 随机森林(Random Forest)
用袋外数据 (OOB) 做预测。随机森林在每次重抽样建立决策树时,都会有一些样本没有被选中,那么就可以用这些样本去做交叉验证,这也是随机森林的优点之一。它可以不用做交叉验证,直接用oob _score_去对模型性能进行评估。
具体的方法就是:
1. 对于每一棵决策树,用OOB 计算袋外数据误差,记为 errOOB1;
2. 然后随机对OOB所有样本的特征i加入噪声干扰,再次计算袋外数据误差,记为errOOB2;
3. 假设有N棵树,特征i的重要性为sum(errOOB2-errOOB1)/N;
如果加入随机噪声后,袋外数据准确率大幅下降,说明这个特征对预测结果有很大的影响,进而说明它的重要程度比较高
2. 梯度提升树(GBDT)
主要是通过计算特征i在单棵树中重要度的平均值,计算公式如下:
其中,M是树的数量。特征i在单棵树的重要度主要是通过计算按这个特征i分裂之后损失的减少值
其中,L是叶子节点的数量,L-1就是非叶子结点的数量。
3. XGboost
XGboost是通过该特征每棵树中分裂次数的和去计算的,比如这个特征在第一棵树分裂1次,第二棵树2次……,那么这个特征的得分就是(1+2+…)。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/127541.html原文链接:https://javaforall.cn
边栏推荐
- When the V100 of mindpole 8 card is trained to 101 epochs, an error of reading data timeout is reported
- PMP adopts the latest exam outline, here is [agile project management]
- Siemens-PLM-TeamCenter下载、安装、使用教程
- Gbase 8s UDR memory management_ 02_ mi_ dalloc
- 股票软件开发
- Ml programming skills:
- PyTorch 模型 onnx 文件的导出和调用
- 连接数据库警告 Establishing SSL connection without server‘s identity verification is not recommended.
- Advantages of network virtualization of various manufacturers
- Selenium runs slowly - speed up by setting selenium load policy
猜你喜欢

笔记——记录一个CannotFindDataSourceException: dynamic-datasource can not find primary datasource问题解决
![[wp]ctfshow-web introductory information collection](/img/22/c2e5cca918800dda9df27272eb9871.png)
[wp]ctfshow-web introductory information collection

wallys//wifi6 wifi5 router IPQ6018 IPQ4019 IPQ4029 802.11ax 802.11ac

相机内参矩阵K和fov的相互转换

C语言学习日记3——realloc函数

10.< tag-动态规划和子序列, 子数组>lt.53. 最大子数组和 + lt.392. 判断子序列 dbc

How to ensure the quality of customized slip rings

Basic practice of Blue Bridge Cup - shape retrieval of matrix (C language)

JVM(二十三) -- JVM运行时参数

PreScan快速入门到精通第十九讲之PreScan执行器配置、轨迹同步及非配多个轨迹
随机推荐
VMware virtual machine download, installation and use tutorial
Rainbond插件扩展:基于Mysql-Exporter监控Mysql
什么是唯心主义
股票软件开发
Software designer afternoon real topic: 2009-2022
[wp]ctfshow-web入门-爆破
各厂商网络虚拟化的优势
Global configuration and page configuration of wechat applet development
UNET and mask RCNN
分享 25 个有用的 JS 单行代码
Bash does not add single quotes to your string
919. Complete binary tree inserter
[Infographics Show] 248 Public Domain Name
Six axis sensor use learning record
Gbase 8s UDR memory management_ 02_ mi_ dalloc
Siemens-PLM-TeamCenter下载、安装、使用教程
4、Nacos 配置中心源码解析之 服务端启动
tiktok手机网络环境怎么设置?tiktok怎么破播放量?
创意下拉多选js插件下载
如何保证定制滑环质量