当前位置:网站首页>数据降维——因子分析
数据降维——因子分析
2022-07-02 17:54:00 【路Lu727】
1、作用
因子分析是基于降维的思想,在尽可能不损失或者少损失原始数据信息的情况下,将错综复杂的众多变量聚合成少数几个独立的公共因子,这几个公共因子可以反映原来众多变量的主要信息,在减少变量个数的同时,又反映了变量之间的内在联系。通常因子分析有三种作用:一是用于因子降维,二是计算因子权重,三是计算加权计算因子汇总综合得分。
2、输入输出描述
输入:2 个或两个以上的定量变量(假设为 N 个变量)。
输出:最低可降维成 1 维(一个变量,一般用于综合评价),最多可降维成 N 个变量(一般用于数据脱敏),同时可以获取降维后各个变量的组成权重,用于代表原先变量的数据保留情况。
3、案例示例
根据该地区2021年的人均GDP、人均可支配收入等多个指标,量化评估多个省市地区的经济发展水平排名或者各指标的权重
4、建模步骤
因子分析是一种依据变量间相关性将多维变量归结为少数公共因子表示,然后加以分析处理的多维变量统计分析方法。其基本思想是将原始变量分解为两部分:一部分是公共因子的线性组合,浓缩表示了原始变量中的绝大部分信息;另一部分是与公共因子无关的特殊因子,反映了公共因子线性组合与原始变量 间的差距。p 维变量 的因子分析模型为:
或记为
其中f =[f 1 ,f 2 ,…,f m ]T 即 为 提 取 的 公 共 因 子 向 量,代 表 了 原 始 变 量 中 不 可 直 接 观 测 但 客 观 存 在 的 m (m <p)个互相独立的共性影响因素;A=()为因子载荷矩阵 ,矩阵 元素 aik 为 变 量 x i 对 公 共 因 子 fk 的载荷,反映了二者的相关系数, 其绝对值越大,相关性越高;
对多维变量 x 建立因子分析模型的关键在于求解因子载荷矩阵A 和公共因子向量f ,其步骤如下:
1.为消除变量量纲不同的影响,对含 n 个 p 维变量的样本X=[x1 ,x2 ,…,xn ]进行标准化。标准化后,各变量的均值为 0,方差为 1。为表达方便标准化后的变量仍然用 X 表示,其各元素为:
2.求样本的协方差矩阵 S,其各元素为:
3.对样本协方差矩阵 S做特征值分解,得到 p 个特征值 λ1 ≥λ2≥…≥λp ≥0,对应的特征值向量为 γ1 , γ2 ,…,γp ,可取前 m 个最大特征值的特征向量估计因子载荷矩阵 。同时为保证公共因子向量各分量方差 为 1,需将其除以对应的标准差 λj 。因子载荷矩阵中对应特征向量 γj 则需乘以 λj 。因此可得因子载荷矩阵
其中参数 m 由公共因子的累积方差贡献率确定,即
一般认为,当前 m 个公共因子的累积方差贡献率超过 90%时,可认为前 m 个公共因子的线性组合基本上能够还原原始变量信息。
公共因子向量f ,即原始变量在公共因子上的具体得分可通过回归法估计得到
通过以上步骤,得到因子载荷矩阵和公共因子向量后,继而可得原始变量特殊因子向量为:
边栏推荐
- Markdown基础语法
- [daily question] the next day
- How to clean up discarded PVs and their corresponding folders
- [fluent] dart data type (VaR data type | object data type)
- ORA-01455: converting column overflows integer datatype
- 中国信通院《数据安全产品与服务图谱》,美创科技实现四大板块全覆盖
- 谷歌官方回应:我们没有放弃TensorFlow,未来与JAX并肩发展
- 新加坡暑假旅游攻略:一天玩转新加坡圣淘沙岛
- 页面标题组件
- Emmet基础语法
猜你喜欢
juypter notebook 修改默认打开文件夹以及默认浏览器
Comprendre complètement le tutoriel de traitement de Point Cloud basé sur open3d!
Excel finds the same value in a column, deletes the row or replaces it with a blank value
yolov3 训练自己的数据集之生成train.txt
The difference between SLC, MLC, TLC and QLC NAND SSD: which is better?
Introduction to the paper | analysis and criticism of using the pre training language model as a knowledge base
Use cheat engine to modify money, life and stars in Kingdom rush
Talk about the design of red envelope activities in e-commerce system
思维意识转变是施工企业数字化转型成败的关键
新手必看,點擊兩個按鈕切換至不同的內容
随机推荐
[Yugong series] July 2022 go teaching course 001 introduction to go language premise
High frequency interview questions
ICDE 2023|TKDE Poster Session(CFP)
The student Tiktok publicized that his alma mater was roast about "reducing the seal of enrollment". Netizen: hahahahahahahaha
二进制操作
论文导读 | 关于将预训练语言模型作为知识库的分析与批评
SLC、MLC、TLC 和 QLC NAND SSD 之间的区别:哪个更好?
QT中的QPropertyAnimation使用和toast案列
为什么要做企业固定资产管理系统,企业如何加强固定资产管理
预处理和预处理宏
yolov3 训练自己的数据集之生成train.txt
R语言使用epiDisplay包的cox.display函数获取cox回归模型汇总统计信息(风险率HR、调整风险率及其置信区间、模型系数的t检验的p值、Wald检验的p值和似然比检验的p值)、汇总统计
[100 cases of JVM tuning practice] 01 - introduction of JVM and program counter
性能测试如何创造业务价值
Exness in-depth good article: dynamic series - Case Analysis of gold liquidity (V)
Thoroughly understand the point cloud processing tutorial based on open3d!
【JVM调优实战100例】01——JVM的介绍与程序计数器
What is 9D movie like? (+ common sense of dimension space)
Websocket of Web real-time communication technology
Deep learning mathematics foundation