当前位置:网站首页>使用五数概括法来确定数据集中的孤立点
使用五数概括法来确定数据集中的孤立点
2022-06-09 10:16:00 【ac不知深】
一、前言
在数据挖掘中,离不开数据集的问题
数据预处理我们会找到数据集中的孤立点
然后抛弃
那么怎么找到这些孤立点呢?
二、五数概括法
根据方法名称
就知道会有五个有关参数
- 最小值
- Q1(前25%的数据)
- Q2(即中位数,前50%的数据)
- Q3(前75%的数据)
- 最大值
大家应该还记得统计学中的正太分布吗?
对
就是下面这样图
正态分布代表了自然界中的太多规律
数据集中的数据分布也是如此
如果数据集中的数据越靠近中心位置
那么该数据集用于研究的效果更好
补充知识点
这里我们介绍四分位距(IQR,我更喜欢叫做四分位数差)
即IQR = Q3 - Q1
IQR的值越大表明数据集中的数据越分散
IQR的值越小表明数据集中的数据越靠近中位数
因为Q3与Q1与极值点(极大极小值)无关
所以更具有准确性。
三、简单案例
假如一项面对年轻人的产品被提出来
总得经过市场调研
最基本的就是调查问卷
年龄20岁的回答应该比50岁的回答更加有意义
所以我们有以下年龄的数据集
{13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70}
n = 27个数,那么哪些数据没有参考意义呢?
首先列出五数:
- min = 13
- 先确定位置:(n + 1)* (1 / 4) = 7
所以Q1 = 20 - 先确定位置:(n + 1)* (2 / 4) = 14
所以Q2 = 25 - 先确定位置:(n + 1)* (3/ 4) = 21
所以Q3 = 35 - max = 70
所以IQR = Q3 - Q1 = 15
除了中间50%的数据可以用
那么还有哪些数据可以用呢?
就可以IQR来求数据中的
上边缘:
Q3 + 1.5 * IQR = 57.5
下边缘:
Q1 - 1.5 * IQR = -2.5 < 0,取0
所以数据中有效部分为[0,57.5]
对比数据集中的数据发现’70’是孤立点
即去除
四、意义
数据集中的数据肯定是存在孤立点的(噪声的)
那么我们就需要在预处理的时候去掉它
五数概括法是很简单很容易上手的一个方法
边栏推荐
- 时间复杂度和空间复杂度
- CTF WEB WP杂谈
- 中信建投是安全的吗
- IBM announced its withdrawal from Russia after a loss of $300million!
- 今日停更
- 叁拾柒- JS 在 Canvas 上尝试分形图形 (一) 画了一个普通箱子图
- Using source tree to delete remote and local warehouses by mistake
- Is it safe to open an account at flush
- Iscc2022 challenge arena Misc
- 叁拾贰- NodeJS简单代理池(有完没完?) 之 SuperAgent 使用代理不是 Timeout 的 Timeout
猜你喜欢

Redis的使用

4. 软件工程:航空行李托运费计算

AI candidates scored 48 points in challenging the composition of the college entrance examination; IBM announced its withdrawal from the Russian market and has suspended all business in Russia; Opencv

Thirty two - nodejs simple proxy pool (is it finished?) The SuperAgent uses a timeout that is not a timeout

叁拾肆- sklearn 根据样本对文本情绪进行分类

leetcode. 36 --- effective Sudoku

Key configuration points of video fusion cloud service easycvr platform deployed in ECS

投稿开奖丨轻量应用服务器征文活动(4月)奖励公布

Lua调用原理展示(Lua堆栈)
![[PHP] brief description and relevant examples of the special class trail for code reuse](/img/6f/fe3b93661276f44d0286199ed6d643.png)
[PHP] brief description and relevant examples of the special class trail for code reuse
随机推荐
C语言与Lua的交互(实践二)
[model deployment and business implementation] model transformation of AI framework deployment scheme
时间复杂度和空间复杂度
MOS管从入门到精通
每日一题-1232. 缀点成线
Key configuration points of video fusion cloud service easycvr platform deployed in ECS
Query permission information from database
CTF WEB WP杂谈
“当你不再是程序员,很多事会脱离掌控”—— 对话全球最大独立开源公司SUSE CTO...
复杂嵌套的对象池(2)——管理单个实例对象的对象池
Thirty nine - SQL segment / group summary of data content
Après une perte de 300 millions de dollars, IBM a annoncé sa sortie de Russie!
You need to think about the following questions about the online help center
[image enhancement] image enhancement based on sparse representation and regularization with matlab code
常用函数式接口的学习
[genius_platform software platform development] lesson 36: definition of maximum value macro of built-in data type
PIC simulation (particle in cell codes) (task a and task C)
Go zero micro Service Practice Series (II. Service splitting)
叁拾壹- NodeJS简单代理池(合) 之 MongoDB 链接数爆炸了
Flitter generate Poster