当前位置:网站首页>spark入门学习-2

spark入门学习-2

2022-08-03 15:48:00 @Autowire

1 依赖关系

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
宽依赖:有shuffle
父RDD的一个分区会被子RDD的多个分区所依赖
在这里插入图片描述
窄依赖:没有shuffle
父RDD的一个分区只会被子RDD的1个分区所依赖
在这里插入图片描述
总结:
窄依赖:并行化+容错
宽依赖:进行阶段划分(shuffle后的阶段需要等待shuffle才能执行.

2 DAG && Stage

在这里插入图片描述
在这里插入图片描述
Spark的DAG:就是spark任务/程序执行的流程图!
DAG的开始:从创建RDD开始
DAG的结束:到Action结束
一个Spark程序中由有几个Ation操作就有几个DAG
在这里插入图片描述
Stage:是DAG中根据shuffle划分出来的阶段!
前面的阶段执行完才可以执行后面的阶段.
同一个阶段中的各个任务可以并行执行无需等待!
在这里插入图片描述

3 名词解释

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4 Job提交流程

在这里插入图片描述

原网站

版权声明
本文为[@Autowire]所创,转载请带上原文链接,感谢
https://blog.csdn.net/zs18753479279/article/details/126093417