当前位置:网站首页>数据湖(二):什么是Hudi
数据湖(二):什么是Hudi
2022-08-02 12:07:00 【InfoQ】
什么是Hudi
Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。
Hudi非常轻量级,可以作为lib与Spark、Flink进行集成
Hudi官网:
https://hudi.apache.org

Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:
- 快速upsert,可插入索引。
- 以原子方式操作数据并具有回滚功能。
- 写入器和查询之间的快照隔离。
- 用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
- 管理文件大小,使用统计数据布局。
- 行和列数据的异步压缩。
边栏推荐
猜你喜欢
随机推荐
元宇宙“吹鼓手”Unity:疯狂扩局,悬念犹存
项目监控六大事项
技术分享| 融合调度系统中的电子围栏功能说明
【2022 小目标检测综述】Towards Large-Scale Small Object Detection: Survey and Benchmarks
基于深度学习的裂缝检测技术
npm run dev 和 npm run serve区别
Likou 35 - search for insertion position - binary search
干测试这些年,去过阿里也去过小公司,给年轻测试员们一个忠告...
从幻核疑似裁撤看如何保证NFT的安全
#夏日挑战赛#【FFH】OpenHarmony设备开发基础(三)编译依赖
JVM简介
放苹果(暑假每日一题 13)
使用mosquitto过程中的问题解决
Thymeleaf
网站自动翻译-网站批量自动翻译-网站免费翻译导出
Process finished with exit code 1
Thymeleaf
力扣58-左旋转字符串
Swiper系列之轮播图
Swift中什么时候不能用 () 代替 Void 来使用