当前位置:网站首页>特征预处理
特征预处理
2022-08-05 04:08:00 【米卡粒】
2.4.1 什么事特征预处理
为什么要进行归一化、标准化
无量纲化
2.4.2归一化:对于归一化来说,如果出现异常点,影响了最大值和最小值,那么结果显然是会发生改变的
通过对原始数据进行变换把数据映射到(默认为[0,1])之间

异常值:最大值 最小值
2.4.3 标准化:对于标准化来说,如果出现异常点,由于具有一定数据量,少量的异常点,对于平均值的影响并不大,从而方差改变较小

(x - mean)/ std
标准差:集中程度
def minmax_demo():
"""
归一化
:return:
"""
# 1 获取数据
data = pd.read_csv("lizi")
data = data.iloc[:, :3]
print("data:\n", data)
# 2 实例化一个转换器类
# transfer = MinMaxScaler()
transfer = MinMaxScaler(feature_range=[2,3])
# 3 调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
return None
def stand_demo():
"""
标准化
:return:
"""
# 1 获取数据
data = pd.read_csv("lizi")
data = data.iloc[:, :3]
print("data:\n", data)
# 2 实例化一个转换器类
transfer = StandardScaler
# 3 使用fit_transfer
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
return None由于 factor_returns.csv 没有找到,所以不知道可不可以运行
def variance_demo():
"""
过滤低方差特征
:return:
"""
# 1、获取数据
data = pd.read_csv("factor_returns.csv")
data = data.iloc[:, 1:-2]
print("data:\n", data)
# 2、实例化一个转化器
transfer = VarianceThreshold(threshold=10)
# 3、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new, data_new.shape)
return None2.5.1 降维 - 降低维度
ndarray
维数 : 嵌套的层数
二维数组
此处的降维:降低特征的个数
效果: 特征与特征之间不相关
2.5.1 降维
特征选择
Filter过滤式
方差选择法:低方差特征过滤
相关系数 - 特征与特征之间的相关程度
取值范围: -1 ~1
特征与特征之间的相关性很高:
1)选取其中一个
2)加权求和
3)主成分分析
Embeded嵌入式
def variance_demo():
"""
过滤低方差特征
:return:
"""
# 1、获取数据
data = pd.read_csv("factor_returns.csv")
data = data.iloc[:, 1:-2]
print("data:\n", data)
# 2、实例化一个转化器
transfer = VarianceThreshold(threshold=10)
# 3、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new, data_new.shape)
# 计算两个变量之间的相关系数
r1 = pearsonr(data["pe_ratio"], data["pb_ratio"])
print("相关系数:\n", r1)
r2 = pearsonr(data['revenue'], data['total_expense'])
print("revenue与total_expense之间的相关性:\n", r2)
return None决策树 正则化 深度学习
主成分分析:
2.6.1 什么是主成分分析(PCA)
sklearn.decomposition.PCA(n_compinents=None)
n_components
def pca_demo():
"""
PCA
:return:
"""
data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]
# 1 实例化一个转换器类
transfer = PCA(n_components=2)
# 调用fit_transform(data)
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
return None
小数 表示保留百分之多少的信息量
整数 减少到多少特征
2.6.2案例探究用户对物品类别的喜好细分
边栏推荐
- This year's Qixi Festival, "love vegetables" are more loving than gifts
- 4T硬盘剩余很多提示“No space left on device“磁盘空间不足
- 【8.3】代码源 - 【喵 ~ 喵 ~ 喵~】【树】【与】
- Swing有几种常用的事件处理方式?如何监听事件?
- DEJA_VU3D - Cesium功能集 之 058-高德地图纠偏
- UE4 更改组件变量 (以修改第一人称角色模板的最大行走速度和跳跃高度为例)
- Index Mysql in order to optimize paper 02 】 【 10 kinds of circumstances and the principle of failure
- [Geek Challenge 2019]FinalSQL
- 【Mysql进阶优化篇02】索引失效的10种情况及原理
- MRTK3 develops Hololens application - gesture drag, rotate, zoom object implementation
猜你喜欢

How to wrap markdown - md file

如何解决复杂的分销分账问题?

Use Unity to publish APP to Hololens2 without pit tutorial

不看后悔,appium自动化环境完美搭建

日志导致线程Block的这些坑,你不得不防

2022-08-04T17:50:58.296+0800 ERROR Announcer-3 io.airlift.discovery.client.Announcer appears after successful startup of presto

阿里本地生活单季营收106亿,大文娱营收72亿,菜鸟营收121亿

Android 面试题——如何徒手写一个非阻塞线程安全队列 ConcurrentLinkedQueue?

The most effective seven performance testing techniques of software testing techniques

[TA-Frost Wolf_may-"Hundred Talents Project"] Graphics 4.3 Real-time Shadow Introduction
随机推荐
Queue Topic: Recent Requests
[Paper Notes] MapReduce: Simplified Data Processing on Large Clusters
Ffmpeg - sources analysis
Shell script: for loop and the while loop
Hard power or soft power, which is more important to testers?
DEJA_VU3D - Cesium功能集 之 058-高德地图纠偏
UE4 后期处理体积 (角色受到伤害场景颜色变淡案例)
MySql的索引学习和使用;(本人觉得足够详细)
UE4 更改组件变量 (以修改第一人称角色模板的最大行走速度和跳跃高度为例)
905. Interval selection
Spark基础【介绍、入门WordCount案例】
【8.2】代码源 - 【货币系统】【硬币】【新年的问题(数据加强版)】【三段式】
【背包九讲——01背包问题】
[MRCTF2020] Ezpop (detailed)
Mysql的redo log详解
This year's Qixi Festival, "love vegetables" are more loving than gifts
[SWPU2019]Web1
Use Unity to publish APP to Hololens2 without pit tutorial
Burp installation and proxy settings
How to solve the three major problems of bank data collection, data supplementary recording and index management?