当前位置:网站首页>常见特征工程操作
常见特征工程操作
2022-07-29 05:11:00 【有害诗篇】
常见的特征工程包括:
异常处理:
1.通过箱线图(或 3-Sigma)分析删除异常值;
2.BOX-COX 转换(处理有偏分布);
3.长尾截断;
特征归一化/标准化:
1.标准化(转换为标准正态分布);
2.归一化(抓换到 [0,1] 区间);
3.针对幂律分布,转换
数据分桶:
等频分桶;
等距分桶;
Best-KS 分桶(类似利用基尼指数进行二分类);
卡方分桶;
缺失值处理:
不处理(针对类似 XGBoost 等树模型);
删除(缺失数据太多);
插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等;
分箱,缺失值一个箱;
特征构造:
构造统计量特征,报告计数、求和、比例、标准差等;
时间特征,包括相对时间和绝对时间,节假日,双休日等;
地理信息,包括分箱,分布编码等方法;
非线性变换,包括 log/ 平方/ 根号等;
特征组合,特征交叉;
仁者见仁,智者见智。
特征筛选
过滤式(filter):先对数据进行特征选择,然后在训练学习器,常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法;
包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价准则,常见方法有 LVM(Las Vegas Wrapper)
; 嵌入式(embedding):结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有 lasso 回归;
降维
PCA/ LDA/ ICA;
特征选择也是一种降维
边栏推荐
- paddle. Fluid constant calculation error 'nonetype' object has no attribute 'get_ fetch_ list‘
- Cryengine5 shader debugging
- Cryengine Technology
- 冒泡排序 C语言
- Day 3
- Realize simple database query (incomplete)
- Summary of the first week
- 阿里云联合鼎捷软件发布云上数字工厂解决方案,实现云MES系统本地化部署
- 【C语言系列】—文件操作详解(上)
- [C language series] - storage of deep anatomical data in memory (I) opening of summer vacation
猜你喜欢

ClickHouse学习(十)监控运行指标

ClickHouse学习(四)SQL操作

AR虚拟增强与现实

阿里云联合鼎捷软件发布云上数字工厂解决方案,实现云MES系统本地化部署

ClickHouse学习(五)集群操作

Application of Huffman tree and Huffman coding in file compression

Alibaba cloud architect details nine trends in the game industry

Alibaba cloud and Dingjie software released the cloud digital factory solution to realize the localized deployment of cloud MES system

Clickhouse learning (VIII) materialized view

【C语言系列】—三种方法模拟实现strlen库函数的方法
随机推荐
力扣994:腐烂的橘子(BFS)
ClickHouse学习(二)ClickHouse单机安装
ClickHouse学习(三)表引擎
Best practices for elastic computing in the game industry
ClickHouse学习(四)SQL操作
D3d Shader Instruction
数组学习之入门简单题 两数之和
ClickHouse学习(一)ClickHouse?
On Paradigm
微信小程序视频上传组件直接上传至阿里云OSS
365 day challenge leetcode 1000 questions - day 039 full binary tree inserter + find peak II + snapshot array
【C语言系列】— 把同学弄糊涂的 “常量” 与 “变量”
H5语义化标签
Introduction to array learning simple question sum of two numbers
Longest string without duplicate characters
Application of Huffman tree and Huffman coding in file compression
ClickHouse学习(十)监控运行指标
Clickhouse learning (VI) grammar optimization
携手数字人、数字空间、XR平台,阿里云与伙伴共同建设“新视界”
Li Kou 994: rotten orange (BFS)