当前位置:网站首页>spark算子讲解
spark算子讲解
2022-08-04 08:28:00 【this is a book】
1 背景
写spark 程序重要特性就是基于算子开发
每一个算子都有自己的特性和用途
某一类算子是性能瓶颈的所在
2 分类
spark 算子有两种主要的分类

3 Transformation
3.1 简介
用来对RDD进行转化
每一次 Transformation 操作都会产生新的RDD
这个操作时延迟执行的
4 Action
4.1 简介
用来触发RDD的计算;得到相关计算结果 或者 将结果保存的外部系统中
5 两者特点总结
Transformation 是异步的,并不会影响性能
返回结果int、double、集合(不会返回新的RDD),遇到 Action 操作时,开始从血 缘关系(lineage)源头开始,进行物理的转换操作所以Action的算子是消耗性能的
边栏推荐
猜你喜欢
随机推荐
LeetCode 97. 交错字符串
MMDetection finetune
并查集介绍和基于并查集解决问题——LeetCode 952 按公因数计算最大组件大小
leetcode 22.8.1 二进制加法
Convert callback function to Flow
Interpretation of new features | MySQL 8.0 online adjustment REDO
DeLighT:深度和轻量化的Transformer
Shared_preload_libraries导致很多语法不支持
oracle sql 多表查询
1161. Maximum Level Sum of a Binary Tree
8.2学习记录
The school to apply for link
如何从PG导入数据到kingbaseES
inject() can only be used inside setup() or functional components.
通过GBase 8c Platform安装数据库集群时报错
微信消息从发送到接收,经历了什么?如何防止丢包
高等代数_证明_对称矩阵属于不同特征值的特征向量正交
尚医通【预约挂号系统】总结
Libpq 是否支持读写分离配置
IntelliJ新建一个类或者包的快捷键是什么?









