当前位置:网站首页>数据降维——主成分分析
数据降维——主成分分析
2022-07-02 17:54:00 【路Lu727】
1、作用
主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合,且越往后主成分在方差中的比重也小,综合原信息的能力越弱,与因子分析不同的是,因子分析是利用少数几个公共因子去解释较多个要观测变量中存在的关系,它不是对原始变量的重新组合。
2、输入输出描述
输入:2 个或两个以上的定量变量(假设为 N 个变量)
输出:最低可降维成 1 维(一个变量,一般用于综合评价),最多可降维成 N 个变量(一般用于数据脱敏),同时可以获取降维后各个变量的组成权重,用于代表原先变量的数据保留情况。
3、案例示例
现在某银行有一张100个变量的用户属性数据表,需要在保证数据的原有信息的损失率最小情况,进行脱敏与降维。

4、建模步骤
主成分分析法是运用“降维”思想,把多个指标 变换成少数综合指标的多元统计方法,这里的综合 指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变 量的综合替代对象,并且保证了转化过程中的信息损失最小 。
根据标准化后的数据集计算协方差矩阵R:

计算矩阵 R 的特征值 λ1 ≥λ2 ≥…≥λn ≥ 0及 对应的特征向量 u1 ,u2 ,…,un ,其中 uj= (u1 j,u2 j, …,unj) ,u nj 表示第 j 个特征向量的第 n 个分量; 由特征向量组成 n 个新的指标变量:

式中,y 1 是第 1 主成分,y 2 是第 2 主成分,…,y n 是第 n 主成分。 计算各主成分y j 贡献率 b j(j=1,2,...,n) 及 y 1,y 2 ,…,y n (p ≤ n)的累计贡献率
。


边栏推荐
- 思维意识转变是施工企业数字化转型成败的关键
- SLC、MLC、TLC 和 QLC NAND SSD 之间的区别:哪个更好?
- ICDE 2023|TKDE Poster Session(CFP)
- 【测试开发】一文带你了解什么是软件测试
- FastDFS安装
- MySQL advanced learning summary 8: overview of InnoDB data storage structure page, internal structure of page, row format
- [100 cases of JVM tuning practice] 03 -- four cases of JVM heap tuning
- Learn the knowledge points of eight part essay ~ ~ 1
- 中国信通院《数据安全产品与服务图谱》,美创科技实现四大板块全覆盖
- The student Tiktok publicized that his alma mater was roast about "reducing the seal of enrollment". Netizen: hahahahahahahaha
猜你喜欢

juypter notebook 修改默认打开文件夹以及默认浏览器

Redis (6) -- object and data structure
![[test development] software testing - concept](/img/24/9ee885d46f7200ae7449957ca96b9d.png)
[test development] software testing - concept

LightGroupButton* sender = static_ cast<LightGroupButton*>(QObject::sender());

How to play when you travel to Bangkok for the first time? Please keep this money saving strategy

Imitation Jingdong magnifying glass effect (pink teacher version)
![[100 cases of JVM tuning practice] 02 - five cases of virtual machine stack and local method stack tuning](/img/59/6c776e0607a52962b72fbea2e64c8e.png)
[100 cases of JVM tuning practice] 02 - five cases of virtual machine stack and local method stack tuning
![[0701] [paper reading] allowing data imbalance issue with perforated input during influence](/img/c7/9b7dc4b4bda4ecfe07aec1367fe059.png)
[0701] [paper reading] allowing data imbalance issue with perforated input during influence

LightGroupButton* sender = static_cast<LightGroupButton*>(QObject::sender());

开源物联网平台ThingsBoard的安装
随机推荐
R language ggplot2 visualization: gganimate package creates dynamic histogram animation (GIF) and uses transition_ The States function displays a histogram step by step along a given dimension in the
Competence of product manager
Use cheat engine to modify money, life and stars in Kingdom rush
Exness in-depth good article: dynamic series - Case Analysis of gold liquidity (V)
LightGroupButton* sender = static_cast<LightGroupButton*>(QObject::sender());
[0701] [论文阅读] Alleviating Data Imbalance Issue with Perturbed Input During Inference
使用 Cheat Engine 修改 Kingdom Rush 中的金钱、生命、星
The difference between promise and observable
Obligatoire pour les débutants, cliquez sur deux boutons pour passer à un contenu différent
拦截器与过滤器的区别
Thoroughly understand the point cloud processing tutorial based on open3d!
R language uses lrtest function of epidisplay package to perform likelihood ratio test on multiple GLM models (logisti regression). Compare whether the performance of the two models is different, and
Excel如何进行隔行复制粘贴
Fastdfs installation
The difference between interceptor and filter
SLAM|如何时间戳对齐?
reduce--遍历元素计算 具体的计算公式需要传入 结合BigDecimal
在Tensorflow2中使用mnist_784数据集进行手写数字识别
Mysql高级篇学习总结6:索引的概念及理解、B+树产生过程详解、MyISAM与InnoDB的对比
"Patient's family, please come here" reading notes