当前位置:网站首页>异常值 识别与处理方法
异常值 识别与处理方法
2022-08-04 06:07:00 【一枚小可爱c】
一、概念
异常值,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点。
二、异常值判断
在不同的数据中,鉴别异常值有不同的标准,常规有以下几种:
1、数字超过某个标准值
这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值,依据专业知识或个人经验,判断是否超过了理论范围值,数据中有没有明显不符合实际情况的错误。
比如,测量成年男性身高(M),出现17.8m这样的数据,显然不符合实际情况。
又或者,如问卷数据使用1-5级量表进行研究,出现-2,-3这类数据,则可能提示为跳转题、空选等。
2、数据大于±3标准差
3σ 原则是在数据服从正态分布的时候用的比较多,在这种情况下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。
在数据处理的时候,按照正态分布的性质,三个标准差以外的数据都可以被看作是错误的数据从而排除掉。
3、格拉布斯(Grubbs)检验法
(1)计算统计量
μ=(X1+X2+…+Xn)/n
s=(∑(Xi-μ)/(n-1))½(i=1,2…n)
Gn=(X(n)-μ)/s
式中μ——样本平均值;
s——样本标准差;
Gn——格拉布斯检验统计量。
(2)确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。
(3)当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。
(4)给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。
三、异常值的处理方法
异常值的处理分为三种:设为缺失值、填补、不处理。
(1)缺失
设置为Null值;此类处理最简单,而且绝大多数情况下均使用此类处理;直接将异常值删除,相当于没有该异常值。如果异常值不多时建议使用此类方法。
(2)填补
如果异常值非常多时,则可能需要进行填补设置,SPSSAU共提供平均值,中位数,众数和随机数、填补数字0共五种填补方式。
(3)不处理
一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。
以下场景,无需丢弃异常值:
1:异常是由于业务特定运营动作产生。该异常是由业务部门的特定动作导致的,如果抛弃异常值将导致无法正确反映业务结果。
2:异常检测模型的应用。异常检测模型是针对整体样本中的异常数据进行分析和挖掘,以便找到其中的规律,这种数据应用围绕异常值展开,异常数据本身是目标数据,因此不能直接丢弃。异常检测模型常用于客户异常识别、信用卡欺诈、贷款审批识别、药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。
3:包容异常值的数据建模。如果数据算法和模型对异常值不敏感,那么即使不处理异常值也不会对模型本身造成负面影响。例如在决策树中,异常值本身就可以作为一种分裂节点。
四、注意事项
1、异常值带微弱主观性,判定没有固定标准,一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。
2、异常值一旦处理则无法恢复,建议先备份数据再操作。
边栏推荐
- idea使用@Autowired注解爆红原因及解决方法
- Error occurred while trying to proxy request项目突然起不来了
- Mac安装PHP开发环境
- Network skills: teach you to install batteries on the router, you can still surf the Internet when the power is cut off!
- MySQL面试题大全(陆续更新)
- MATLAB版量化交易技术分析工具TA-Lib【不付费也可获取,不要被付费吓跑】
- 字符串的一些方法
- 经典新诗九首
- 数组的一些方法
- 事件链原理,事件代理,页面的渲染流程,防抖和节流,懒加载和预加载
猜你喜欢
随机推荐
DropBlock: Regularization method and reproduction code for convolutional layers
Implementation of ICEEMDAN Decomposition Code in MATLAB
Software: Recommend a domestic and very easy-to-use efficiency software uTools to everyone
【学习笔记】AGC036
类图规范总结
用matlab打造的摩斯电码加解码器音频版,支持包括中文在内的任意字符
窥探晶体世界的奥秘 —— 230种空间群晶体结构模型全在这里
带你了解一下PHP搭建的电商商城系统
Gramm Angle field GAF time-series data into the image and applied to the fault diagnosis
网页中常用的两种绘图技术,用canvas绘图,绘制出一个三角形,矩形,柱状图,扇形图
详解CAN总线:常用CAN连接器的使用方法
JVM工具之 JPS
SQL如何从字符串截取指定字符(LEFT、MID、RIGHT三大函数)
Error EPERM operation not permitted, mkdir ‘Dsoftwarenodejsnode_cache_cacach两种解决办法
反射与枚举
Time Series Forecasting Based on Reptile Search RSA Optimized LSTM
SQL存储过程详解
MySQL基础(DDL、DML、DQL)
Database knowledge: SQLServer creates non-sa user notes
SQL去重的三种方法汇总









