当前位置:网站首页>RDD和DataFrame和Dataset
RDD和DataFrame和Dataset
2022-08-05 05:12:00 【价值成长】
1. DataFrame
为了支持结构化数据的处理,Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。它在概念上等同于关系数据库中的表或 R/Python 语言中的 data frame
。 由于 Spark SQL 支持多种语言的开发,所以每种语言都定义了 DataFrame
的抽象
2. DataSet
Dataset 也是分布式的数据集合,它集成了 RDD 和 DataFrame 的优点,具备强类型的特点,同时支持 Lambda 函数。Spark 2.0 后,为了方便开发者,Spark 将 DataFrame 和 Dataset 的 API 融合到一起,提供了结构化的 API(Structured API),即用户可以通过一套标准的 API 就能完成对两者的操作。
Spark SQL && DataFrame && Dataset
如果你用的是 Spark SQL 的查询语句,则直到运行时你才会发现有语法错误,而如果你用的是 DataFrame 和 Dataset,则在编译时就可以发现错误 (这节省了开发时间和整体代价)。
DataFrame & DataSet & RDDs
- RDDs 适合非结构化数据的处理,而 DataFrame & DataSet 更适合结构化数据和半结构化的处理;
- DataFrame & DataSet 可以通过统一的 Structured API 进行访问,而 RDDs 则更适合函数式编程的场景;
- 相比于 DataFrame 而言,DataSet 是强类型的 (Typed),有着更为严格的静态类型检查;
- DataSets、DataFrames、SQL 的底层都依赖了 RDDs API,并对外提供结构化的访问接口。
边栏推荐
- How to identify false evidence and evidence?
- Qt制作18帧丘比特表白意中人、是你的丘比特嘛!!!
- Flutter learning 5-integration-packaging-publish
- Algorithms - ones and zeros (Kotlin)
- [informix] Resolving startup errors and solutions
- Multi-threaded query results, add List collection
- Redis哨兵模式配置文件详解
- LAB Semaphore Implementation Details
- Structured Light 3D Reconstruction (2) Line Structured Light 3D Reconstruction
- Flutter学习4-基本UI组件
猜你喜欢
作业8.4 进程间的通信 管道与信号
Develop a highly fault-tolerant distributed system
二叉树基本性质+oj题解析
数字孪生技术在电力系统中的应用现状
Use IDEA to connect to TDengine server
ESP32 485 Illuminance
OFDM 十六讲 5 -Discrete Convolution, ISI and ICI on DMT/OFDM Systems
Structured light 3D reconstruction (1) Striped structured light 3D reconstruction
Basic properties of binary tree + oj problem analysis
Homework 8.4 Interprocess Communication Pipes and Signals
随机推荐
jvm three heap and stack
Flutter TapGestureRecognizer 如何工作
uboot enable debug printing information
Flutter learning 5-integration-packaging-publish
WPF中DataContext作用
u-boot中的u-boot,dm-pre-reloc
[Decoding tools] Some online tools for Bitcoin
Shell(4) Conditional Control Statement
The mall background management system based on Web design and implementation
uva1325
dedecms后台生成提示读取频道信息失败的解决方法
[WeChat applet] WXML template syntax - conditional rendering
淘宝账号如何快速提升到更高等级
【无标题】
Judgment statement _switch and case
Flutter learning 2-dart learning
作业8.4 进程间的通信 管道与信号
[Surveying] Quick Summary - Excerpt from Gaoshu Gang
1068 Find More Coins
Dashboard Display | DataEase Look at China: Data Presents China's Capital Market