当前位置:网站首页>RDD和DataFrame和Dataset
RDD和DataFrame和Dataset
2022-08-05 05:12:00 【价值成长】
1. DataFrame
为了支持结构化数据的处理,Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。它在概念上等同于关系数据库中的表或 R/Python 语言中的 data frame。 由于 Spark SQL 支持多种语言的开发,所以每种语言都定义了 DataFrame 的抽象
2. DataSet
Dataset 也是分布式的数据集合,它集成了 RDD 和 DataFrame 的优点,具备强类型的特点,同时支持 Lambda 函数。Spark 2.0 后,为了方便开发者,Spark 将 DataFrame 和 Dataset 的 API 融合到一起,提供了结构化的 API(Structured API),即用户可以通过一套标准的 API 就能完成对两者的操作。
Spark SQL && DataFrame && Dataset
如果你用的是 Spark SQL 的查询语句,则直到运行时你才会发现有语法错误,而如果你用的是 DataFrame 和 Dataset,则在编译时就可以发现错误 (这节省了开发时间和整体代价)。
DataFrame & DataSet & RDDs
- RDDs 适合非结构化数据的处理,而 DataFrame & DataSet 更适合结构化数据和半结构化的处理;
- DataFrame & DataSet 可以通过统一的 Structured API 进行访问,而 RDDs 则更适合函数式编程的场景;
- 相比于 DataFrame 而言,DataSet 是强类型的 (Typed),有着更为严格的静态类型检查;
- DataSets、DataFrames、SQL 的底层都依赖了 RDDs API,并对外提供结构化的访问接口。
边栏推荐
猜你喜欢
随机推荐
uboot开启调试打印信息
大学物理---质点运动学
重新审视分布式系统:永远不会有完美的一致性方案……
Flutter 父子组件如何都能收到点击事件
The underlying mechanism of the class
Shell(4)条件控制语句
UVA10827
u-boot debugging and positioning means
【软考 系统架构设计师】软件架构设计③ 特定领域软件架构(DSSA)
Flutter学习-开篇
Mini Program_Dynamic setting of tabBar theme skin
dedecms dream weaving tag tag does not support capital letters fix
Qt produces 18 frames of Cupid to express his love, is it your Cupid!!!
Requests库部署与常用函数讲解
Flutter学习4-基本UI组件
u-boot in u-boot, dm-pre-reloc
RL reinforcement learning summary (1)
[informix] Resolving startup errors and solutions
逆向理论知识4
8.04 Day35-----MVC三层架构





![[cesium] element highlighting](/img/99/504ca9802db83eb33bc6d91b34fa84.png)



