当前位置:网站首页>数据分析 第一篇
数据分析 第一篇
2022-08-03 05:10:00 【study_code_ing】
目录
一、简介
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
二、目的
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位。
三、分析类型
在统计学领域,有些人将数据分析划分为描述性分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
1.探索性数据分析
探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。
2.定性数据分析
定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
3.离线数据分析
离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时间为几分钟、几小时、几天甚至更长。
4.在线数据分析
在线数据分析也称为联机分析处理,用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。
四、分析工具
使用Excel自带的数据分析功能可以完成很多专业软件才有的数据统计、分析,其中包括:直方图、相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断,均值推断、线性、线性回归分析、多元回归分析、移动平均等内容。还有R、SAS、SPSS、SQL、Python、BI工具等.......
1、Excel
Excel作为最基础也数据分析工具,同时也是最主要的数据分析工具。Excel有多种强大功能,比如创建表单,数据透视表,VBA等等,Excel的系统十分强大,以至于没有任何一个分析工具是可以超越它的,可以根据自己的需求分析数据。
Excel可以满足绝大部分数据分析工作的需求,同时也提供友好的操作界面,对于具备基本统计学理论的用户来说Excel是比较容易上手的,就是它的处理的数据量较小。
2、R
R是一门用于统计计算与作图的语言,其实R不单单是一门语言,还是一个数据计算与分析的环境。它最主要的特点是免费、开源、并且各种各样的模块都十分齐全。
在R的综合档案网络CRAN中,有大量的第三方功能包,其中涵盖了从统计计算到机器学习,从社会网络分析到自然语言处理,从金融分析到生物信息,从各种数据库语言接口到高性能的计算模型,可以说是应有尽有,这也就是为什么R获得了越来越多的各行各业从业人员喜爱的重要原因。
3、SAS
SAS功能强大并且可以编程,很受高级用户的欢迎,也正因为此,它是比较难掌握的软件之一,在企业工作中用的比较多,需要编写SAS程序去处理数据。
4、SPSS
SPSS是世界上最早采用图形菜单的驱动界面统计软件,其最大的特点就是操作界面极为友好,输出的结果美观漂亮。用户只需掌握一定的Windows操作技能,精通统计的分析原理,就能够使用该软件为特定的科研工作而服务。
SPSS采用了Excel表格的方式输入与管理数据,数据的接口较为通用,可以方便地从其他数据库当中读入数据。其统计的过程包括常用的、较为成熟的统计过程,可以完全满足非统计专业人士的工作需要。
5、SQL
SQL可以说是数据方向所有岗位都要掌握的工具,入门相对比较简单,概括起来就是增删改查,SQL需要掌握的知识主要包括数据的定义语言以及数据的控制语言和操控语言。
在数据操控的过程中要能够理解SQL的语法顺序和执行顺序,理解SQL与各种join的 不同,熟练的掌握SQL的重要函数,想要入行数据分析,SQL是必要技能。
6、Python
Python是一种面向对象、解释型计算机程序设计的语言。它的语法简洁清晰,Python在数据分析和数据可视化等方面都显得比较活跃。
同时Python具有强大的编程能力,但是这种编程语言不同于R或者matlab,python有非常强大的数据分析能力,还可以利用Python进行爬虫,写游戏,和自动化运维,在这些领域当中有应用很广泛,这些优点就使得一种技术去解决所有的业务服务问题,体现了Python有利于各个业务之间的融合,使用Python,能够大大地提高数据分析的效率。7、BI工具
BI工具是按照数据分析的流程进行设计的,商业智能的BI是为数据分析而生的,诞生起点很高,目的是为了缩短商业数据到商业决策的时间,并用数据去影响决策。
五、分析步骤
1.识别需求
识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。
2.收集数据
有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。
3.分析数据
分析数据是将收集的数据通过加工、整理和分析、使其转化为信息。
4.过程改进
数据分析是质量管理体系的基础。组织的管理者应在适当时,通过对以下问题的分析,评估其有效性。
六、案例分析
1.使用excel案例
在进行物理时,我们往往会收集到许多物理数据,通过excel列表和作图的方法处理数据,验证物理结论或者某一测量量量的较准确数值。
案例1:通过多普勒效应及声速综合测试仪等仪器,测量出Vr和deltaf并记录,在excel中通过列表法,做出deltaf-Vr关系曲线,并对曲线进行拟合,得到斜率k,验证多普勒效应
案例2:通过在官网收集大量的日期的交易数据,计算上证指数和富士中国A50指数的相关系数,可以知道股票的价格趋势及涨跌幅度,通过典型性、普通性的样本股票的价格的相关系数,还可以表示整个市场的股票价格总趋势及涨跌幅度。
2.使用python案例
案例3:在聚宽平台上,利用python可以获取各种行情数据,收益曲线,相关性分析等,还可以做出示意图,通过此可以分析股票走势趋势等。相比excel分析更加快捷,便利,直接获取数据,无需自己复制粘贴,提高效率,同时有许多曲线,图表进行分析分析效果更好。
边栏推荐
猜你喜欢
Online password generator tool recommendation
安装IIS服务(Internet信息服务(Internet Information Services,简写IIS,互联网信息服务)
GIS数据漫谈(六)— 投影坐标系统
2022/08/02 Study Notes (day22) Multithreading
Talking about GIS Data (5) - Geographic Coordinate System
Common lipophilic cell membrane dyes DiO, Dil, DiR, Did spectrograms and experimental procedures
Coordinate knowledge in digital twin campus scenarios
typescript41-class类的私有修饰符
typescript47-函数之间的类型兼容性
IO process thread -> thread -> day5
随机推荐
PotPlayer实现上班摸鱼电视自由
Kotlin-Flow常用封装类:StateFlow的使用
Build your own web page on raspberry pie (1)
Exception(异常) 和 Error(错误)区别解析
Redis6学习笔记
Lambda表达式案例
c语言结构体中的冒泡排序
ss-5.consul服务端+生产者+消费者
GIS数据漫谈(五)— 地理坐标系统
Bubble sort in c language structure
shell script loop statement
13.
lt.647. Palindromic substring + lt.516. Longest palindrome subsequence 1095 解码PAT准考证 (25 分)(C语言)
Exception (abnormal) and Error (error) difference analysis
Common lipophilic cell membrane dyes DiO, Dil, DiR, Did spectrograms and experimental procedures
User password encryption tool
Interface test practice | Detailed explanation of the difference between GET / POST requests
在线密码生成工具推荐
斐讯K2路由编译Padavan华硕固件和心得
接口和抽象