当前位置:网站首页>RDD和DataFrame和Dataset
RDD和DataFrame和Dataset
2022-08-05 05:12:00 【价值成长】
1. DataFrame
为了支持结构化数据的处理,Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。它在概念上等同于关系数据库中的表或 R/Python 语言中的 data frame。 由于 Spark SQL 支持多种语言的开发,所以每种语言都定义了 DataFrame 的抽象
2. DataSet
Dataset 也是分布式的数据集合,它集成了 RDD 和 DataFrame 的优点,具备强类型的特点,同时支持 Lambda 函数。Spark 2.0 后,为了方便开发者,Spark 将 DataFrame 和 Dataset 的 API 融合到一起,提供了结构化的 API(Structured API),即用户可以通过一套标准的 API 就能完成对两者的操作。
Spark SQL && DataFrame && Dataset
如果你用的是 Spark SQL 的查询语句,则直到运行时你才会发现有语法错误,而如果你用的是 DataFrame 和 Dataset,则在编译时就可以发现错误 (这节省了开发时间和整体代价)。
DataFrame & DataSet & RDDs
- RDDs 适合非结构化数据的处理,而 DataFrame & DataSet 更适合结构化数据和半结构化的处理;
- DataFrame & DataSet 可以通过统一的 Structured API 进行访问,而 RDDs 则更适合函数式编程的场景;
- 相比于 DataFrame 而言,DataSet 是强类型的 (Typed),有着更为严格的静态类型检查;
- DataSets、DataFrames、SQL 的底层都依赖了 RDDs API,并对外提供结构化的访问接口。
边栏推荐
- 【解码工具】Bitcoin的一些在线工具
- OFDM 十六讲 5 -Discrete Convolution, ISI and ICI on DMT/OFDM Systems
- Flutter学习2-dart学习
- 社区分享|腾讯海外游戏基于JumpServer构建游戏安全运营能力
- 淘宝账号如何快速提升到更高等级
- A blog clears the Redis technology stack
- Error creating bean with name ‘configDataContextRefresher‘ defined in class path resource
- How can Flutter parent and child components receive click events
- entry point injection
- How to identify false evidence and evidence?
猜你喜欢
随机推荐
Mysql5.7 二进制 部署
Distributed systems revisited: there will never be a perfect consistency scheme...
uva1325
【Transfer】What is etcd
Flutter real machine running and simulator running
Flutter学习-开篇
Detailed explanation of each module of ansible
Dephi reverse tool Dede exports function name MAP and imports it into IDA
请写出SparkSQL语句
一篇博客通关Redis技术栈
数字孪生技术在电力系统中的应用现状
Develop a highly fault-tolerant distributed system
ansible各个模块详解
Flutter 父子组件如何都能收到点击事件
Application status of digital twin technology in power system
电话溥功能
【解码工具】Bitcoin的一些在线工具
多线程查询结果,添加List集合
【学生毕业设计】基于web学生信息管理系统网站的设计与实现(13个页面)
LAB Semaphore Implementation Details


![[cesium] 3D Tileset model is loaded and associated with the model tree](/img/03/50b7394f33118c9ca1fbf31b737b1a.png)






