当前位置:网站首页>自我总结ing
自我总结ing
2022-06-13 05:56:00 【Yushijuj】
学习Spark的心得体会
自从大二学习大数据以来,我知道了什么是大数据,大数据是一种现象,并非是一种技术,大数据的体量要特别大,类别要特别多.大数据是海量数据+复杂数据类型。
大数据解决的问题: 1.快速的数据流转(流处理,实时处理,批处理),2.多样的数据类型(结构化,半结构化,非结构化),3.海量的数据规模(TB,PB,EB)。
大数据技术定义: 是指伴随着大数据的采集、输、存储、分析和应用的相关技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。
大数据技术的应用有以下几个层面,数据采集,数据存储和管理,数据处理与分析,数据隐私和安全,大数据计算模式:批处理计算,流计算,图计算,查询分析计算.
我们还学习了如何搭建Hadoop平台(核心能力如下) HDFS、MapReduce、hive数据仓库等
通过本学期的学习,我知道了什么是Spark,Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。您会发现各行业的众多组织都使用它,其中包括 FINRA、Yelp、Zillow、DataXu、Urban Institute 和 CrowdStrike。
Hadoop 是一种开源框架,它将 Hadoop 分布式文件系统 (HDFS) 用于存储,将 YARN 作为管理由不同应用程序所使用的计算资源的方式,并且实现 MapReduce 编程模型来充当执行引擎。在一般 Hadoop 实现中,还会部署不同的执行引擎,如 Spark、Tez 和 Presto。
Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架。它没有自己的存储系统,但会在其他存储系统,如 HDFS,或其他热门存储,如 Amazon Redshift、Amazon S3、Couchbase、Cassandra 等之上运行分析。Hadoop 上的 Spark 会利用 YARN 来分享常见的集群和数据集作为其他 Hadoop 引擎,确保服务和响应的一致性水平。

在实际的操作中,还是会遇到很多问题,语法的错误,一行里参杂着多行代码,在编程中逻辑不够严谨,逻辑错误代码的不熟悉,英语也要多学习,单词的词汇量也不大,在学习Spark语言的时候也是有狠多的疑惑,但是,没能提起勇气去问老师,自己下来花了比较长的时间才理解,真的是有些许愚蠢,也有很多没有掌握的地方,感觉自己学了,又感觉没有学,总的来说,觉得自己很差劲,成为了自己讨厌的人,又总是在为自己的失找借口,学习是一方面,成长又是一方面,人们总是喜欢被人夸赞自己,却不知道这是一把刺向自己的弱点的剑,其实让自己深陷深渊的不是别人,正是那个弱小的自己;贪婪、放纵、胆怯、放荡,这些不太好的词汇总是围绕在我们身边,我们唯有克服重重困难,才能取得成功,站在成曾经的你,你的面前说:“再见从前的我”!
这样你能懂得学习,知道自己的为什么而前行。又知道什么而后退或停滞不前。
边栏推荐
- Leetcode- find a difference - simple
- Implementation of concurrent programming locking
- Summary of the 11th week of sophomore year
- 16 the usertask of a flowable task includes task assignment, multi person countersignature, and dynamic forms
- Etcd understanding of microservice architecture
- Software testing - Summary of common interface problems
- Exception after repeated application redeployment on tongweb: application instance has been stopped already or outofmemoryerror:metaspace
- Ffmpeg download suffix is Video files for m3u8
- Validation set: ‘flowable-executable-process‘ | Problem: ‘flowable-servicetask-missing-implementatio
- Tongweb crawl performance log script
猜你喜欢
![[turn] explain awk (1)__ Awk Basics_ Options_ Program segment parsing and examples](/img/65/a214d137e230b1a1190feb03660f2c.jpg)
[turn] explain awk (1)__ Awk Basics_ Options_ Program segment parsing and examples

17 servicetask of flowable task

NVIDIA Jetson Nano/Xavier NX 扩容教程

2021.9.30 learning log -postman

12 error end event and terminateendevent of end event

OpenGL mosaic (VIII)

How slow is the application system on tongweb? How dead is it?

Zero copy technology

16 the usertask of a flowable task includes task assignment, multi person countersignature, and dynamic forms

Source code analysis of ArrayList
随机推荐
Mobile end adaptation scheme
Four shardingsphere JDBC sharding strategies
How to view tongweb logs correctly?
Quartz basic use
No assessment summary
Leetcode- string addition - simple
Software testing - Summary of common interface problems
Misunderstanding of tongweb due to ease of use
MySQL fuzzy query and sorting by matching degree
Source code analysis of ArrayList
The 13th week of the second semester of sophomore year
Missing tag identification in cots RFID systems: bringing the gap between theory and Practice
Tongweb card, tongweb card, tongweb card
Basic application of sentinel series
Experience of redis installation under Linux system (an error is reported at the same time. The struct redis server does not have a member named XXXX)
Leetcode- keyboard line - simple
MySQL installation in Linux Environment
Top slide immersive dialog
Exception after repeated application redeployment on tongweb: application instance has been stopped already or outofmemoryerror:metaspace
Leetcode minimum absolute difference of binary search tree simple