当前位置:网站首页>spark中的cache和checkpoint
spark中的cache和checkpoint
2022-08-03 05:32:00 【贾斯汀玛尔斯】
cache 缓存级别
DataFrame 的 cache 默认采用 MEMORY_AND_DISK
RDD 的 cache 默认方式采用 MEMORY_ONLY
释放缓存和缓存
缓存:(1)dataFrame.cache (2)sparkSession.catalog.cacheTable(“tableName”)
释放缓存:(1)dataFrame.unpersist (2)sparkSession.catalog.uncacheTable(“tableName”)
缓存和检查点区别
1)Cache 缓存只是将数据保存起来,不切断血缘依赖。Checkpoint 检查点切断血缘依 赖。
2)Cache 缓存的数据通常存储在磁盘、内存等地方,可靠性低。Checkpoint 的数据通 常存储在 HDFS 等容错、高可用的文件系统,可靠性高。
3)建议对 checkpoint()的 RDD 使用 Cache 缓存,这样 checkpoint 的 job 只需从 Cache 缓存中读取数据即可,否则需要再从头计算一次 RDD。
分区
1)默认采用 Hash 分区
缺点:可能导致每个分区中数据量的不均匀,极端情况下会导致某些分区拥有 RDD 的 全部数据。
2)Ranger 分区: 要求 RDD 中的 KEY 类型必须可以排序。
3)自定义分区 根据需求,自定义分区。
SparkSQL 中 RDD、DataFrame、DataSet

边栏推荐
- IFM network detailed explanation and torch reproduction
- Detailed explanation of AutoInt network and pytorch reproduction
- process.env环境变量配置方式(配置环境变量区分开发环境和生产环境)
- el-tabs(标签栏)的入门学习
- 国内首款PCB资料分析软件,华秋DFM使用介绍
- 10 common data types in MySQL
- nacos-2.0.3启动报错出现no datasource set的坑
- 5 个开源的 Rust Web 开发框架,你选择哪个?
- mysql or语句的优化
- 一篇文章教你写扫雷(c语言基础版)
猜你喜欢

el-tree设置利用setCheckedNodessetCheckedKeys默认勾选节点,以及通过setChecked新增勾选指定节点

el-tabs(标签栏)的入门学习

Content type ‘applicationx-www-form-urlencoded;charset=UTF-8‘ not supported“【已解决】

Docker安装Mysql

Redis哨兵模式+过期策略、淘汰策略、读写策略

ES6 - 剩余参数,Array的扩展方法,String的扩展方法

el-table获取读取数据表中某一行的数据属性

5 个开源的 Rust Web 开发框架,你选择哪个?

SQL——左连接(Left join)、右连接(Right join)、内连接(Inner join)
![mysql 数据去重的三种方式[实战]](/img/37/ad4007a32d9eb563a303756785e72f.png)
mysql 数据去重的三种方式[实战]
随机推荐
CISP-PTE真题演示
Mysql去除重复数据
empty() received an invalid combination of arguments - got (tuple, dtype=NoneType, device=NoneType),
MySQL的DATE_FORMAT()函数将Date转为字符串
【云原生 · Kubernetes】搭建Harbor仓库
单节点部署 gpmall 商城系统(二)
nacos-2.0.3启动报错出现no datasource set的坑
el-tree设置利用setCheckedNodessetCheckedKeys默认勾选节点,以及通过setChecked新增勾选指定节点
torch.nn.modules.activation.ReLU is not a Module subclass
MySQL之DQL——查询语言
IDEA连接mysql又报错!Server returns invalid timezone. Go to ‘Advanced‘ tab and set ‘serverTimezone‘ prope
FiBiNet torch复现
【FCOS】FCOS理论知识讲解
C语言实现通讯录功能(400行代码实现)
sql中 exists的用法
【GIoU loss】GIoU loss损失函数理解
UniApp scroll-view 事件不生效(@scroll、@scrolltolower、@scrolltoupper ...)
docker-compose部署mysql
MySQL的安装(详细教程)
C # to switch input method