当前位置:网站首页>「干货」数据分析常用的10种统计学方法,附上重点应用场景
「干货」数据分析常用的10种统计学方法,附上重点应用场景
2022-06-30 17:46:00 【小火龙说数据】
预计阅读时间:6min
阅读建议:本文为干货总结类文章,长期有用,建议先收藏再阅读。
解决痛点:最近收到一些同学的私信,咨询较多的一个问题是:“做数据分析需要学习哪些统计学知识?”因此想分享一些工作中应用较多的统计学方法。
00
序言
从起源角度来看,数据分析是「统计学」与「计算机」的交叉学科,统计知识应用其中;从工作角度来看,应用统计学知识,可以更为科学的度量数据对业务的价值。
因此,作为数据分析同学,掌握基础的统计学知识是非常有必要的。下面,小火龙为大家总结了「工作中常用的10种统计学方法」。
01
描述性统计「常用指数:5星」
描述性统计,通过概括性的数学方法及图表方式,描述业务数据及其分布现状,在工作中是最为常用的。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 周报/月报:「如果完成一份高质量的数据周报/月报」
02
假设检验「常用指数:5星」
假设检验,用于判断样本与样本、样本与总体之间的差异,是由抽样误差所导致的,还是由于本身就存在差异。其中主要涵盖「参数检验」和「非参数检验」,两者的概念如下:
参数检验:假设数据服从某一分布(一般为正态分布),通过样本参数的估计量对总体参数进行检验。
非参数检验:不考虑总体分布形式,直接对数据的分布进行检验。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 异动分析:「三种快速定位异常维度的方法」
- 因果分析:「AB实验最佳流程」
03
列联表分析「常用指数:3星」
列联表分析,用于判断离散型变量之间是否存在明显的相关性。例如:绩效的等级与性别是否存在相关性。
涵盖内容如下:
工作中主要应用场景如下:
04
相关分析「常用指数:4星」
相关分析,用于判断现象之间的某种关联关系以及关联程度,例如:正相关、负相关,在探索性分析中应用较为频繁。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 用户增长:「我对用户增长的理解『新用户篇』」
05
方差分析「常用指数:2星」
方差分析(又称F检验),用于度量两个及两个以上样本均值差异的显著性检验。
涵盖内容如下:
06
回归分析「常用指数:5星」
回归分析,用于日常指标的拟合,以及对于未来趋势的预测,在工作中应用较为广泛。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
07
聚类分析「常用指数:4星」
聚类分析,用于将用户/内容,在没有先验性指引的情况下,分门别类的进行划分。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 聚类分析:「浅谈聚类分析在工作中的应用」
08
判别分析「常用指数:4星」
判别分析(分类问题),通过研究对象的特征判断所属的类别。与聚类分析的差异在于,聚类分析在分析前,不知道类别有几类以及是什么,而判别分析是在总体类别已知的情况下,对新样本判断所属群体。
涵盖内容如下:
工作中主要应用场景如下:
【应用场景参考文章,可戳蓝字部分】
- 用户增长:「我对用户增长的理解『流失预警篇』」
09
主成分分析「常用指数:2星」
主成分分析(Principal Component Analysis,PCA),是将一组可能的相关性变量,转化成为一组线性不相关的变量,转化后的这组变量叫做主成分。
主成分分析最大的作用在于「降维」,也可用于「探索变量之间的关系」。简单解释一下,在搭建模型过程中,往往会选择诸多变量作为特征,而这些变量之间也往往存在着相关性,这会引起「多重共线性问题」。因此,需要一种方式,将这些变量转化为相对独立且尽可能多的涵盖原始变量的信息,主成分则是其中的一种方式,将原始变量转化为几个相互无关的新变量。
扫盲 - 多重共线性问题
自变量(特征)之间由于存在相关关系,从而使得模型估计失真(结果不稳定,例如:随机森林特征贡献度,多次运行出来的结果差异较大)。
10
因子分析「常用指数:2星」
因子分析的作用同主成分分析一样,同样是为了「降维」。原理是在多自变量之间,寻找潜在的因子,相似变量归为一个因子,通过因子替代原有的自变量。
与主成分分析相同之处:起到清理原始自变量中内在关系的作用。
与主成分分析不同之处:主成分分析重在归总变量的信息,而因子分析重在解释变量的信息,主成分分析是因子分析的子集。
以上10种统计学方法在工作中较为常见,但方式不止于此,还包括:信度分析、生存分析、多重响应分析、距离分析等。有待你在工作中不断探索、发掘场景,并将知识应用其中。
以上就是本期的内容分享。
边栏推荐
- Cloud Native Landing Practice Using rainbond for extension dimension information
- Swin-Transformer(2021-08)
- 删除排序链表中的重复元素 II[链表节点统一操作--dummyHead]
- 一套十万级TPS的IM综合消息系统的架构实践与思考
- 【合集- 行业解决方案】如何搭建高性能的数据加速与数据编排平台
- Multipass Chinese document - setting graphical interface
- mysql for update 死锁问题排查
- Dependencies tool to view exe and DLL dependencies
- EasyNVR平台设备通道均在线,操作出现“网络请求失败”是什么原因?
- Is it safe to open a mobile stock account? Is it reliable?
猜你喜欢

PC端微信多开

The cloud native landing practice of using rainbow for Tuowei information

医院在线问诊小程序源码 互联网医院源码 智慧医院源码

【TiDB】TiCDC canal_ Practical application of JSON

SaaS project management system solution for the financial service industry helps enterprises tap a broader growth service space

Redis入门到精通01

医疗行业企业供应链系统解决方案:实现医疗数智化供应链协同可视

煤炭行业数智化供应商管理系统解决方案:数据驱动,供应商智慧平台助力企业降本增效

Regular expressions (regular matching)

CODING 正式入驻腾讯会议应用市场!
随机推荐
TCP packet sticking problem
PC wechat multi open
How to do a good job in software system demand research? Seven weapons make it easy for you to do it
System integration project management engineer certification high frequency examination site: prepare project scope management plan
《客从何处来》
Vulnerability recurrence ----37. Apache unomi Remote Code Execution Vulnerability (cve-2020-13942)
系统集成项目管理工程师认证高频考点:编制项目范围管理计划
AI chief architect 10-aica-lanxiang, propeller frame design and core technology
「杂谈」对数据分析未来的几点思考
[community star selection] the 23rd issue of the July revision plan | bit by bit creation, converging into a tower! Huawei freebuses 4E and other cool gifts
【合集- 行业解决方案】如何搭建高性能的数据加速与数据编排平台
Rust 书籍资料 - 芽之家书馆
华兴证券:混合云原生架构下的 Kitex 实践
Dlib库实现人脸关键点检测(Opencv实现)
服务器之间传文件夹,文件夹内容为空
Vulnerability recurrence ----- 35. Uwsgi PHP directory traversal vulnerability (cve-2018-7490)
全栈代码测试覆盖率及用例发现系统的建设和实践
Rhai - Rust 的嵌入式脚本引擎
医院在线问诊小程序源码 互联网医院源码 智慧医院源码
基于UDP协议设计的大文件传输软件