当前位置:网站首页>数据降维——因子分析
数据降维——因子分析
2022-07-02 17:54:00 【路Lu727】
1、作用
因子分析是基于降维的思想,在尽可能不损失或者少损失原始数据信息的情况下,将错综复杂的众多变量聚合成少数几个独立的公共因子,这几个公共因子可以反映原来众多变量的主要信息,在减少变量个数的同时,又反映了变量之间的内在联系。通常因子分析有三种作用:一是用于因子降维,二是计算因子权重,三是计算加权计算因子汇总综合得分。
2、输入输出描述
输入:2 个或两个以上的定量变量(假设为 N 个变量)。
输出:最低可降维成 1 维(一个变量,一般用于综合评价),最多可降维成 N 个变量(一般用于数据脱敏),同时可以获取降维后各个变量的组成权重,用于代表原先变量的数据保留情况。
3、案例示例
根据该地区2021年的人均GDP、人均可支配收入等多个指标,量化评估多个省市地区的经济发展水平排名或者各指标的权重
4、建模步骤
因子分析是一种依据变量间相关性将多维变量归结为少数公共因子表示,然后加以分析处理的多维变量统计分析方法。其基本思想是将原始变量分解为两部分:一部分是公共因子的线性组合,浓缩表示了原始变量中的绝大部分信息;另一部分是与公共因子无关的特殊因子,反映了公共因子线性组合与原始变量 间的差距。p 维变量 的因子分析模型为:
或记为
其中f =[f 1 ,f 2 ,…,f m ]T 即 为 提 取 的 公 共 因 子 向 量,代 表 了 原 始 变 量 中 不 可 直 接 观 测 但 客 观 存 在 的 m (m <p)个互相独立的共性影响因素;A=()为因子载荷矩阵 ,矩阵 元素 aik 为 变 量 x i 对 公 共 因 子 fk 的载荷,反映了二者的相关系数, 其绝对值越大,相关性越高;
对多维变量 x 建立因子分析模型的关键在于求解因子载荷矩阵A 和公共因子向量f ,其步骤如下:
1.为消除变量量纲不同的影响,对含 n 个 p 维变量的样本X=[x1 ,x2 ,…,xn ]进行标准化。标准化后,各变量的均值为 0,方差为 1。为表达方便标准化后的变量仍然用 X 表示,其各元素为:
2.求样本的协方差矩阵 S,其各元素为:
3.对样本协方差矩阵 S做特征值分解,得到 p 个特征值 λ1 ≥λ2≥…≥λp ≥0,对应的特征值向量为 γ1 , γ2 ,…,γp ,可取前 m 个最大特征值的特征向量估计因子载荷矩阵 。同时为保证公共因子向量各分量方差 为 1,需将其除以对应的标准差 λj 。因子载荷矩阵中对应特征向量 γj 则需乘以 λj 。因此可得因子载荷矩阵
其中参数 m 由公共因子的累积方差贡献率确定,即
一般认为,当前 m 个公共因子的累积方差贡献率超过 90%时,可认为前 m 个公共因子的线性组合基本上能够还原原始变量信息。
公共因子向量f ,即原始变量在公共因子上的具体得分可通过回归法估计得到
通过以上步骤,得到因子载荷矩阵和公共因子向量后,继而可得原始变量特殊因子向量为:
边栏推荐
- ICDE 2023|TKDE Poster Session(CFP)
- Compile oglpg-9th-edition source code with clion
- How performance testing creates business value
- Exness in-depth good article: dynamic series - Case Analysis of gold liquidity (V)
- R语言dplyr包filter函数筛选dataframe数据、如果需要筛选的数据列(变量)名称中包含引号则需要使用!!sym语法处理、否则因为无法处理引号筛选不到任何数据
- FastDFS安装
- UML 类图
- The difference between promise and observable
- R语言使用epiDisplay包的lsNoFunction函数列出当前空间中的所有对象、除了用户自定义的函数对象
- juypter notebook 修改默认打开文件夹以及默认浏览器
猜你喜欢
M2dgr: slam data set of multi-source and multi scene ground robot (ICRA 2022)
yolov3 训练自己的数据集之生成train.txt
Compile oglpg-9th-edition source code with clion
谷歌官方回应:我们没有放弃TensorFlow,未来与JAX并肩发展
How to clean up discarded PVs and their corresponding folders
电商系统中常见的 9 大坑,你踩过没?
juypter notebook 修改默认打开文件夹以及默认浏览器
Thoroughly understand the point cloud processing tutorial based on open3d!
【每日一题】第二天
Mysql高级篇学习总结6:索引的概念及理解、B+树产生过程详解、MyISAM与InnoDB的对比
随机推荐
What are the links of the problem
Compile oglpg-9th-edition source code with clion
SLAM|如何时间戳对齐?
Mysql高级篇学习总结7:Mysql数据结构-Hash索引、AVL树、B树、B+树的对比
谷歌官方回应:我们没有放弃TensorFlow,未来与JAX并肩发展
从list转化成map的时候,如果根据某一属性可能会导致key重复而异常,可以设置处理这种重复的方式
潇洒郎:彻底解决Markdown图片问题——无需上传图片——无需网络——转发给他人图片无缺失
SQL training 2
ICDE 2023|TKDE Poster Session(CFP)
Tips for material UV masking
Stratégie touristique d'été de Singapour: un jour pour visiter l'île de San taosha à Singapour
[Yugong series] July 2022 go teaching course 001 introduction to go language premise
为什么要做企业固定资产管理系统,企业如何加强固定资产管理
[100 cases of JVM tuning practice] 01 - introduction of JVM and program counter
Competence of product manager
思维意识转变是施工企业数字化转型成败的关键
Learning summary of MySQL advanced 6: concept and understanding of index, detailed explanation of b+ tree generation process, comparison between MyISAM and InnoDB
医院在线问诊源码 医院视频问诊源码 医院小程序源码
论文导读 | 关于将预训练语言模型作为知识库的分析与批评
How to copy and paste interlaced in Excel