当前位置:网站首页>spark算子讲解
spark算子讲解
2022-08-04 08:28:00 【this is a book】
1 背景
写spark 程序重要特性就是基于算子开发
每一个算子都有自己的特性和用途
某一类算子是性能瓶颈的所在
2 分类
spark 算子有两种主要的分类
3 Transformation
3.1 简介
用来对RDD进行转化
每一次 Transformation 操作都会产生新的RDD
这个操作时延迟执行的
4 Action
4.1 简介
用来触发RDD的计算;得到相关计算结果 或者 将结果保存的外部系统中
5 两者特点总结
Transformation 是异步的,并不会影响性能
返回结果int、double、集合(不会返回新的RDD),遇到 Action 操作时,开始从血 缘关系(lineage)源头开始,进行物理的转换操作所以Action的算子是消耗性能的
边栏推荐
猜你喜欢
随机推荐
关于Oracle RAC 11g重建磁盘组的问题
一天搞定JDBC02:开启事务
技术实现 | 图像检索及其在高德的应用
(三)DDD上下文映射图——老师,我俩可是纯洁的男女关系!
实现加载驱动、得到数据库对象、关闭资源的代码复用,将代码提取到相应的工具包里边。优化程序
js异步变同步、同步变异步
Distributed Computing MapReduce | Spark Experiment
ShuffleNet v2网络结构复现(Pytorch版)
给Unity Behavior Designer(Unity行为树) 的Can See Object 画圆锥辅助图
智汇华云 | 华云软件定义网络 DCI介绍
第一次用postgreSQL,想装主从,用的12.7 tar.gz版本。安装好后没在 share目录下找到样例配置recovery.conf.sample,是安装方式不对,还是路径不对?
2022的七夕,奉上7个精美的表白代码,同时教大家改源码快速自用
C语言strchr()函数以及strstr()函数的实现
【我想要老婆】
【JS 逆向百例】某网站加速乐 Cookie 混淆逆向详解
金仓数据库 KDTS 迁移工具使用指南 (4. BS 版使用说明)
设计信息录入界面,完成人员基本信息的录入工作,
【论文笔记】Dynamic Convolution: Attention over Convolution Kernels
研究性学习专题 3_LL(1)语法分析设计原理与实现
在安装GBase 8c数据库的时候,报错显示“Host ips belong to different cluster”。这是为什么呢?有什么解决办法?