当前位置:网站首页>数据标准化处理
数据标准化处理
2022-06-28 19:59:00 【Burger叮当】
1. 为什么要进行数据标准化处理
在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。
2. 什么是数据标准化
将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
3.数据标准化方法
常见的方法有:min-max标准化(Min-max normalization),log函数转换,atan函数转换,z-score标准化(zero-mena normalization,此方法最为常用),模糊量化法。本文只介绍min-max法(规范化方法),z-score法(正规化方法),归一化方法。
方法一:规范化方法(min-max法)
min-max标准化(Min-maxnormalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

特点:是对原始数据的线性变换,结果落入[0,1] 区间
方法二:正规化方法(z-score法)
最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:z-score 标准化(zero-meannormalization)也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

- 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。
- z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
- spss默认的标准化方法就是z-score标准化。
- 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。
步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
方法三:归一化方法

边栏推荐
- TcWind 模式设定
- TcWind 模式設定
- Are you still paying for your thesis? Come and join me
- 计网 | 一文解析TCP协议所有知识点
- Software supply chain security risk guide for enterprise digitalization and it executives
- 电子科大(申恒涛团队)&京东AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能SOTA!优于基于双视频表示的方法!...
- Kaggle腸胃道圖像分割比賽baseline
- UESTC (shenhengtao team) & JD AI (Mei Tao team) proposed a structured dual stream attention network for video Q & A, with performance SOTA! Better than the method based on dual video representation
- Risc-v instruction set
- Xiaobai's e-commerce business is very important to choose the right mall system!
猜你喜欢

SQL server2019 create a new SQL server authentication user name and log in
![return new int[]{i + 1, mid + 1};return {i + 1, mid + 1};](/img/6a/45a4494276deba72ef9833818229f5.png)
return new int[]{i + 1, mid + 1};return {i + 1, mid + 1};

Echart: category text position adjustment of horizontal histogram

2022 t elevator repair test question bank simulation test platform operation

Racher add / delete node

数论 --- 欧拉函数、筛法求欧拉函数、欧拉定理、费马小定理详细证明

《数据安全法》出台一周年,看哪四大变化来袭?
![[go language questions] go from 0 to entry 5: comprehensive review of map, conditional sentences and circular sentences](/img/7a/16b481753d7d57f50dc8787eec8a1a.png)
[go language questions] go from 0 to entry 5: comprehensive review of map, conditional sentences and circular sentences

R language GLM generalized linear model: logistic regression, Poisson regression fitting mouse clinical trial data (dose and response) examples and self-test questions

Severity code description project file line suppress status error lnk2038 detected a mismatch of "runtimelibrary": the value "md\u dynamicrelease" does not match the value "mdd\u dynamicde"
随机推荐
JVM memory structure
C#应用程序界面开发基础——窗体控制
easypoi
QSP读取标签配置错误问题
2837. The total number of teams
输入分隔符
Tcwind mode setting
圆球等的相关计算
return new int[]{i + 1, mid + 1};return {i + 1, mid + 1};
100人成绩的平均
April 10, 2022 -- take the first step with C -- use C from Net class library call method (not understood)
Win 10 create a gin framework project
【算法篇】刷了两道大厂面试题,含泪 ”重学数组“
The first meta universe concept novel, meta universe 2086, won the upper attack meta universe award in 2022
1002_ twenty million one hundred and eighty-one thousand and nineteen
Jenkins pipeline's handling of job parameters
Digital collection, ten thousand words long text, most of the questions you want to know have been clearly explained, which must be seen by practitioners
2280.Cupboards
2022 welder (elementary) special operation certificate examination question bank and answers
电子科大(申恒涛团队)&京东AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能SOTA!优于基于双视频表示的方法!...