当前位置:网站首页>RDD和DataFrame和Dataset
RDD和DataFrame和Dataset
2022-08-05 05:12:00 【价值成长】
1. DataFrame
为了支持结构化数据的处理,Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。它在概念上等同于关系数据库中的表或 R/Python 语言中的 data frame。 由于 Spark SQL 支持多种语言的开发,所以每种语言都定义了 DataFrame 的抽象
2. DataSet
Dataset 也是分布式的数据集合,它集成了 RDD 和 DataFrame 的优点,具备强类型的特点,同时支持 Lambda 函数。Spark 2.0 后,为了方便开发者,Spark 将 DataFrame 和 Dataset 的 API 融合到一起,提供了结构化的 API(Structured API),即用户可以通过一套标准的 API 就能完成对两者的操作。
Spark SQL && DataFrame && Dataset
如果你用的是 Spark SQL 的查询语句,则直到运行时你才会发现有语法错误,而如果你用的是 DataFrame 和 Dataset,则在编译时就可以发现错误 (这节省了开发时间和整体代价)。
DataFrame & DataSet & RDDs
- RDDs 适合非结构化数据的处理,而 DataFrame & DataSet 更适合结构化数据和半结构化的处理;
- DataFrame & DataSet 可以通过统一的 Structured API 进行访问,而 RDDs 则更适合函数式编程的场景;
- 相比于 DataFrame 而言,DataSet 是强类型的 (Typed),有着更为严格的静态类型检查;
- DataSets、DataFrames、SQL 的底层都依赖了 RDDs API,并对外提供结构化的访问接口。
边栏推荐
- [informix] Resolving startup errors and solutions
- "PHP8 Beginner's Guide" A brief introduction to PHP
- Dephi reverse tool Dede exports function name MAP and imports it into IDA
- 【cesium】3D Tileset 模型加载并与模型树关联
- 2022牛客多校第四场C.Easy Counting Problem(EGF+NTT)
- [cesium] element highlighting
- Flutter真机运行及模拟器运行
- phone call function
- 延迟加载js方式async与defer区别
- Dephi逆向工具Dede导出函数名MAP导入到IDA中
猜你喜欢
随机推荐
JeeSite New Report
1.3 mysql batch insert data
结构光三维重建(二)线结构光三维重建
Talk about 20 common problems in data governance
Dephi逆向工具Dede导出函数名MAP导入到IDA中
upload上传图片到腾讯云,如何上传图片
u-boot in u-boot, dm-pre-reloc
ESP32 485 Illuminance
Mvi架构浅析
u-boot debugging and positioning means
Understanding and use of C# on set() and get() methods
Redis哨兵模式配置文件详解
Dashboard Display | DataEase Look at China: Data Presents China's Capital Market
淘宝账号如何快速提升到更高等级
entry point injection
uboot enable debug printing information
Detailed explanation of each module of ansible
逆向理论知识4
RL reinforcement learning summary (1)
upload upload pictures to Tencent cloud, how to upload pictures









