当前位置:网站首页>spark算子讲解
spark算子讲解
2022-08-04 08:28:00 【this is a book】
1 背景
写spark 程序重要特性就是基于算子开发
每一个算子都有自己的特性和用途
某一类算子是性能瓶颈的所在
2 分类
spark 算子有两种主要的分类
3 Transformation
3.1 简介
用来对RDD进行转化
每一次 Transformation 操作都会产生新的RDD
这个操作时延迟执行的
4 Action
4.1 简介
用来触发RDD的计算;得到相关计算结果 或者 将结果保存的外部系统中
5 两者特点总结
Transformation 是异步的,并不会影响性能
返回结果int、double、集合(不会返回新的RDD),遇到 Action 操作时,开始从血 缘关系(lineage)源头开始,进行物理的转换操作所以Action的算子是消耗性能的
边栏推荐
- [STM32] STM32F103 series name and package, memory
- 解决循环依赖import cycle not allowed的最佳解决办法
- 使用requests post请求爬取申万一级行业指数行情
- 最近的一些杂感-20220731
- 占位,稍后补上
- Typora_Markdown_图片标题(题注)
- 千万级别的表分页查询非常慢,怎么办?
- 线程的状态
- 金仓数据库KingbaseES客户端编程接口指南-JDBC(10. JDBC 读写分离最佳实践)
- IDEA引入类报错:“The file size (2.59 MB) exceeds the configured limit (2.56MB)
猜你喜欢
随机推荐
Lightweight Backbone VGNetG Achieves "No Choice, All" Lightweight Backbone Network
秒懂大模型 | 3步搞定AI写摘要
【论文笔记】Dynamic Convolution: Attention over Convolution Kernels
js - the first letter that appears twice
The sorting algorithm including selection, bubble, and insertion
inject() can only be used inside setup() or functional components.
金仓数据库KingbaseES客户端编程接口指南-JDBC(7. JDBC事务处理)
C Language Lectures from Scratch Part 6: Structure
redis---分布式锁存在的问题及解决方案(Redisson)
发现WRH几个表被锁了,怎么办?
一天搞定JDBC02:开启事务
从零开始的tensorflow小白使用指北
使用requests post请求爬取申万一级行业指数行情
解决循环依赖import cycle not allowed的最佳解决办法
经典动态规划问题的递归实现方法——LeetCode39 组合总和
金仓数据库 KDTS 迁移工具使用指南 (6. 注意事项)
关于Oracle RAC 11g重建磁盘组的问题
LeetCode 97. 交错字符串
How to write patents are more likely to pass?
【UE虚幻引擎】UE5实现动态导航样条线绘制