当前位置:网站首页>数据降维——主成分分析
数据降维——主成分分析
2022-07-02 17:54:00 【路Lu727】
1、作用
主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合,且越往后主成分在方差中的比重也小,综合原信息的能力越弱,与因子分析不同的是,因子分析是利用少数几个公共因子去解释较多个要观测变量中存在的关系,它不是对原始变量的重新组合。
2、输入输出描述
输入:2 个或两个以上的定量变量(假设为 N 个变量)
输出:最低可降维成 1 维(一个变量,一般用于综合评价),最多可降维成 N 个变量(一般用于数据脱敏),同时可以获取降维后各个变量的组成权重,用于代表原先变量的数据保留情况。
3、案例示例
现在某银行有一张100个变量的用户属性数据表,需要在保证数据的原有信息的损失率最小情况,进行脱敏与降维。

4、建模步骤
主成分分析法是运用“降维”思想,把多个指标 变换成少数综合指标的多元统计方法,这里的综合 指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变 量的综合替代对象,并且保证了转化过程中的信息损失最小 。
根据标准化后的数据集计算协方差矩阵R:

计算矩阵 R 的特征值 λ1 ≥λ2 ≥…≥λn ≥ 0及 对应的特征向量 u1 ,u2 ,…,un ,其中 uj= (u1 j,u2 j, …,unj) ,u nj 表示第 j 个特征向量的第 n 个分量; 由特征向量组成 n 个新的指标变量:

式中,y 1 是第 1 主成分,y 2 是第 2 主成分,…,y n 是第 n 主成分。 计算各主成分y j 贡献率 b j(j=1,2,...,n) 及 y 1,y 2 ,…,y n (p ≤ n)的累计贡献率
。


边栏推荐
猜你喜欢

徹底搞懂基於Open3D的點雲處理教程!

Singapore summer tourism strategy: play Singapore Sentosa Island in one day

Industrial software lecture - core technology analysis of 3D CAD design software - the second lecture of the Forum

Hongmeng's fourth learning

How to enable the run dashboard function of idea

Compile oglpg-9th-edition source code with clion

LightGroupButton* sender = static_ cast<LightGroupButton*>(QObject::sender());

使用 Cheat Engine 修改 Kingdom Rush 中的金钱、生命、星

使用CLion编译OGLPG-9th-Edition源码

Mysql高级篇学习总结7:Mysql数据结构-Hash索引、AVL树、B树、B+树的对比
随机推荐
问题包含哪些环节
论文导读 | 关于将预训练语言模型作为知识库的分析与批评
Exness in-depth good article: dynamic series - Case Analysis of gold liquidity (V)
C的内存管理
R语言使用epiDisplay包的lrtest函数对多个glm模型(logisti回归)执行似然比检验(Likelihood ratio test)对比两个模型的性能是否有差异、广义线性模型的似然比检
【JVM调优实战100例】02——虚拟机栈与本地方法栈调优五例
Compile oglpg-9th-edition source code with clion
高频面试题
新手必看,點擊兩個按鈕切換至不同的內容
#gStore-weekly | gStore源码解析(四):安全机制之黑白名单配置解析
Yolov3 trains its own data set to generate train txt
在纽约寻找童真——新泽西州乐高乐园探索中心的美好一天
Talk about the design of red envelope activities in e-commerce system
Learn the knowledge points of eight part essay ~ ~ 1
R language ggplot2 visualization: visualize the line chart and add customized X-axis label information to the line chart using labs function
Mysql高级篇学习总结8:InnoDB数据存储结构页的概述、页的内部结构、行格式
学习八股文的知识点~~1
Mysql高级篇学习总结7:Mysql数据结构-Hash索引、AVL树、B树、B+树的对比
Progress progress bar
R语言使用epiDisplay包的cox.display函数获取cox回归模型汇总统计信息(风险率HR、调整风险率及其置信区间、模型系数的t检验的p值、Wald检验的p值和似然比检验的p值)、汇总统计