当前位置:网站首页>数据湖(二):什么是Hudi
数据湖(二):什么是Hudi
2022-08-02 12:07:00 【InfoQ】
什么是Hudi
Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。
Hudi非常轻量级,可以作为lib与Spark、Flink进行集成
Hudi官网:
https://hudi.apache.org

Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:
- 快速upsert,可插入索引。
- 以原子方式操作数据并具有回滚功能。
- 写入器和查询之间的快照隔离。
- 用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
- 管理文件大小,使用统计数据布局。
- 行和列数据的异步压缩。
边栏推荐
猜你喜欢
随机推荐
SuperSlide系列之轮播图
Running yum reports Error: Cannot retrieve metalink for reposit
DTG-SSOD:最新半监督检测框架,Dense Teacher(附论文下载)
Pod调度策略:亲和性、污点与污点容忍
半夜赶工制作简报的我好想说 : 确定了,最终稿就是这样
企业级数据治理工作怎么开展?Datahub这样做
ASP.NET Core 6框架揭秘实例演示[31]:路由“高阶”用法
测试开发之路,我在大厂做测试这四年的感悟
手撸架构,网络 面试36问
免费文档翻译-免费批量文档翻译软件推荐
用位运算为你的程序加速
华为eNSP(基础实验通信)
三种实现分布式锁的方式
JVM学习----垃圾回收调优
面积曲线AUC(area under curve)
[kali-information collection] (1.9) Metasploit + search engine tool Shodan
力扣977-有序数组的平方——暴力法&双指针法
如何搭建威纶通触摸屏与S7-200smart之间无线PPI通信?
CAN总线的AUTOSAR网络管理
【项目管理技术的优势】









