当前位置:网站首页>「干货」数据分析常用的10种统计学方法,附上重点应用场景
「干货」数据分析常用的10种统计学方法,附上重点应用场景
2022-06-30 17:46:00 【小火龙说数据】
预计阅读时间:6min
阅读建议:本文为干货总结类文章,长期有用,建议先收藏再阅读。
解决痛点:最近收到一些同学的私信,咨询较多的一个问题是:“做数据分析需要学习哪些统计学知识?”因此想分享一些工作中应用较多的统计学方法。
00
序言
从起源角度来看,数据分析是「统计学」与「计算机」的交叉学科,统计知识应用其中;从工作角度来看,应用统计学知识,可以更为科学的度量数据对业务的价值。
因此,作为数据分析同学,掌握基础的统计学知识是非常有必要的。下面,小火龙为大家总结了「工作中常用的10种统计学方法」。
01
描述性统计「常用指数:5星」
描述性统计,通过概括性的数学方法及图表方式,描述业务数据及其分布现状,在工作中是最为常用的。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 周报/月报:「如果完成一份高质量的数据周报/月报」
02
假设检验「常用指数:5星」
假设检验,用于判断样本与样本、样本与总体之间的差异,是由抽样误差所导致的,还是由于本身就存在差异。其中主要涵盖「参数检验」和「非参数检验」,两者的概念如下:
参数检验:假设数据服从某一分布(一般为正态分布),通过样本参数的估计量对总体参数进行检验。
非参数检验:不考虑总体分布形式,直接对数据的分布进行检验。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 异动分析:「三种快速定位异常维度的方法」
- 因果分析:「AB实验最佳流程」
03
列联表分析「常用指数:3星」
列联表分析,用于判断离散型变量之间是否存在明显的相关性。例如:绩效的等级与性别是否存在相关性。
涵盖内容如下:
工作中主要应用场景如下:
04
相关分析「常用指数:4星」
相关分析,用于判断现象之间的某种关联关系以及关联程度,例如:正相关、负相关,在探索性分析中应用较为频繁。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 用户增长:「我对用户增长的理解『新用户篇』」
05
方差分析「常用指数:2星」
方差分析(又称F检验),用于度量两个及两个以上样本均值差异的显著性检验。
涵盖内容如下:
06
回归分析「常用指数:5星」
回归分析,用于日常指标的拟合,以及对于未来趋势的预测,在工作中应用较为广泛。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
07
聚类分析「常用指数:4星」
聚类分析,用于将用户/内容,在没有先验性指引的情况下,分门别类的进行划分。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 聚类分析:「浅谈聚类分析在工作中的应用」
08
判别分析「常用指数:4星」
判别分析(分类问题),通过研究对象的特征判断所属的类别。与聚类分析的差异在于,聚类分析在分析前,不知道类别有几类以及是什么,而判别分析是在总体类别已知的情况下,对新样本判断所属群体。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 用户增长:「我对用户增长的理解『流失预警篇』」
09
主成分分析「常用指数:2星」
主成分分析(Principal Component Analysis,PCA),是将一组可能的相关性变量,转化成为一组线性不相关的变量,转化后的这组变量叫做主成分。
主成分分析最大的作用在于「降维」,也可用于「探索变量之间的关系」。简单解释一下,在搭建模型过程中,往往会选择诸多变量作为特征,而这些变量之间也往往存在着相关性,这会引起「多重共线性问题」。因此,需要一种方式,将这些变量转化为相对独立且尽可能多的涵盖原始变量的信息,主成分则是其中的一种方式,将原始变量转化为几个相互无关的新变量。
扫盲 - 多重共线性问题
自变量(特征)之间由于存在相关关系,从而使得模型估计失真(结果不稳定,例如:随机森林特征贡献度,多次运行出来的结果差异较大)。
10
因子分析「常用指数:2星」
因子分析的作用同主成分分析一样,同样是为了「降维」。原理是在多自变量之间,寻找潜在的因子,相似变量归为一个因子,通过因子替代原有的自变量。
与主成分分析相同之处:起到清理原始自变量中内在关系的作用。
与主成分分析不同之处:主成分分析重在归总变量的信息,而因子分析重在解释变量的信息,主成分分析是因子分析的子集。
以上10种统计学方法在工作中较为常见,但方式不止于此,还包括:信度分析、生存分析、多重响应分析、距离分析等。有待你在工作中不断探索、发掘场景,并将知识应用其中。
以上就是本期的内容分享。
边栏推荐
- 一文详解|Go 分布式链路追踪实现原理
- Compare the audio librosa library with the Mel spectrogram in the torchaudio library
- Swin-Transformer(2021-08)
- js 字符串截取方法汇总
- OneFlow源码解析:算子签名的自动推断
- MRO industrial products procurement management system: enable MRO enterprise procurement nodes to build a new digital procurement system
- Sword finger offer 17 Print from 1 to maximum n digits
- Summary of methods for offline installation of chrome extensions in China
- rust配置国内源
- Glacier teacher's book
猜你喜欢
《所谓情商高,就是会说话》读书笔记
Small program container technology to promote the operation efficiency of the park
云上“视界” 创新无限 | 2022阿里云直播峰会正式上线
[Collection - industry solutions] how to build a high-performance data acceleration and data editing platform
Sword finger offer 17 Print from 1 to maximum n digits
Dependencies tool to view exe and DLL dependencies
Delete duplicate elements in the sorting linked list ii[unified operation of linked list nodes --dummyhead]
Entry node of link in linked list - linked list topic
视频内容生产与消费创新
mysql for update 死锁问题排查
随机推荐
深度学习编译器的理解
《客从何处来》
RFFE中MIPI协议
What if icloud photos cannot be uploaded or synchronized?
「杂谈」对数据分析未来的几点思考
【社区明星评选】第23期 7月更文计划 | 点滴创作,汇聚成塔!华为FreeBuds 4E等酷爽好礼送不停
屏幕显示技术进化史
云上“视界” 创新无限 | 2022阿里云直播峰会正式上线
com.alibaba.fastjson.JSONObject # toJSONString 消除循环引用
Redis入门到精通01
At present, the big guys are joining the two streams of flinksql, cdcmysql and Kafka, and the results are put into MySQL or KA
Is it safe to open an account for goucai? Is it reliable?
Rhai 脚本引擎的简单应用示例
TCP粘包问题
Full recharge, im+rtc+x full communication service "feedback season" starts
电子元器件行业在线采购系统精准匹配采购需求,撬动电子产业数字化发展
Memory Limit Exceeded
Geoffrey Hinton: my 50 years of in-depth study and Research on mental skills
「经验」浅谈聚类分析在工作中的应用
链表中环的入口结点-链表专题