当前位置:网站首页>spark入门学习-2
spark入门学习-2
2022-08-03 15:48:00 【@Autowire】
1 依赖关系



宽依赖:有shuffle
父RDD的一个分区会被子RDD的多个分区所依赖
窄依赖:没有shuffle
父RDD的一个分区只会被子RDD的1个分区所依赖
总结:
窄依赖:并行化+容错
宽依赖:进行阶段划分(shuffle后的阶段需要等待shuffle才能执行.
2 DAG && Stage


Spark的DAG:就是spark任务/程序执行的流程图!
DAG的开始:从创建RDD开始
DAG的结束:到Action结束
一个Spark程序中由有几个Ation操作就有几个DAG
Stage:是DAG中根据shuffle划分出来的阶段!
前面的阶段执行完才可以执行后面的阶段.
同一个阶段中的各个任务可以并行执行无需等待!
3 名词解释




4 Job提交流程

边栏推荐
猜你喜欢
![[微信小程序开发者工具] × #initialize](/img/38/ea90525f53de3933a808f0d75028b0.png)
[微信小程序开发者工具] × #initialize

指令重排以及案例

Phaser(二):小恐龙跑酷游戏

【网络结构】VGG

深度学习——安装CUDA以及CUDNN实现tensorflow的GPU运行

Small Tools(4) 整合Seata1.5.2分布式事务

2021年12月电子学会图形化四级编程题解析含答案:质数判断器

A new round of competition for speech recognition has started. Will natural dialogue be the next commanding height?

30W 2C(JD6606S + FP6652X2)BOM

2021年12月电子学会图形化二级编程题解析含答案:绘制多边形
随机推荐
2021年12月电子学会图形化二级编程题解析含答案:绘制多边形
5v充8.4v1A电流充电管理ic
全新探险者以40万的产品击穿豪华SUV价格壁垒
How to play deep paging with hundreds of millions of data?Compatible with MySQL + ES + MongoDB
指令重排以及案例
自定SvgIcon公用组件
一个文件管理系统的软硬件配置清单
【网络结构】VGG
【周报】2022年7月31日
请问大家,MySQL全量怎么样可以提高性能呢?我这里瓶颈是在Source上,在不增加并行度的情况下,
每日练习------有10个数字要求分别用选择法从大到小输出
分享一款免费OPC UA服务器
[Code Hoof Set Novice Village 600 Questions] Define a function as a macro
JS handwritten call apply bind (detailed) (interview)
破解数字化转型困局,企业分析协同场景案例解析
2021年12月电子学会图形化三级编程题解析含答案:数星星
【周报】2022年7月24日
No inner demons, to dry!SQL optimization and diagnosis
Flink作业调度详解
随笔-Unity中一个简易的Spine动画控制器