当前位置:网站首页>数据湖(二):什么是Hudi
数据湖(二):什么是Hudi
2022-08-02 12:07:00 【InfoQ】
什么是Hudi
Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。
Hudi非常轻量级,可以作为lib与Spark、Flink进行集成
Hudi官网:
https://hudi.apache.org

Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:
- 快速upsert,可插入索引。
- 以原子方式操作数据并具有回滚功能。
- 写入器和查询之间的快照隔离。
- 用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
- 管理文件大小,使用统计数据布局。
- 行和列数据的异步压缩。
边栏推荐
- 如何在 UE4 中制作一扇自动开启的大门
- 大疆P4M云遮挡矫正
- 喜迎八一 《社会企业开展应聘文职人员培训规范》团体标准出版发行会暨橄榄枝大课堂上线发布会在北京举行
- 细学常用类,集合类,IO流
- npm WARN deprecated [email protected] This version of tar is no longer supported, and will not receive
- 基于threejs的商品VR展示平台的设计与实现思路
- 【项目管理技术的优势】
- Failure Analysis | A SELECT statement crashes MySQL, what happened?
- How to set up wireless PPI communication between Weiluntong touch screen and S7-200smart?
- 面积曲线AUC(area under curve)
猜你喜欢
随机推荐
ABAP-OOAVL模板程序
Likou 977-Squaring of ordered arrays - brute force method & double pointer method
np.nan, np.isnan, None, pd.isnull, pd.isna 整理与小结
Create an application operation process using the kubesphere GUI
An example of type3 voltage loop compensator taking Boost as an example
阿苹的思考
QListView的使用
借小程序容器打造自有App小程序生态
数字化转型中的低代码
JVM学习----垃圾回收调优
Problem solving in the process of using mosquitto
JVM简介
DTG-SSOD: The latest semi-supervised detection framework, Dense Teacher (with paper download)
openresty 性能优化
技术分享| 融合调度系统中的电子围栏功能说明
前男友买辣椒水威胁要抢女儿,女方能否申请人身安全保护令?
自己如何做小程序呢?
1.3快速生成树协议RSTP
中原银行实时风控体系建设实践
基于深度学习的裂缝检测技术








