当前位置:网站首页>数据湖(二):什么是Hudi
数据湖(二):什么是Hudi
2022-08-02 12:07:00 【InfoQ】
什么是Hudi
Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。
Hudi非常轻量级,可以作为lib与Spark、Flink进行集成
Hudi官网:
https://hudi.apache.org

Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:
- 快速upsert,可插入索引。
- 以原子方式操作数据并具有回滚功能。
- 写入器和查询之间的快照隔离。
- 用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
- 管理文件大小,使用统计数据布局。
- 行和列数据的异步压缩。
边栏推荐
- 【第六届强网杯CTF-Wp】
- Solve the problem of Chinese garbled characters in exporting excel file names
- Likou 209 - String with the Minimum Length - Sliding Window Method
- ASP.NET Core 6框架揭秘实例演示[31]:路由“高阶”用法
- 主流跨端技术一览
- [kali-information collection] (1.8) ARP reconnaissance tool _Netdiscover
- 基于深度学习的裂缝检测技术
- 观察者(observer)模式(二) —— 实现线程安全的监听器
- 如何通过DBeaver 连接 TDengine?
- 技术分享| 融合调度系统中的电子围栏功能说明
猜你喜欢
随机推荐
Thymeleaf
npm run serve启动报错npm ERR Missing script “serve“
【The 6th Strong Net Cup CTF-Wp】
【kali-信息收集】(1.9)Metasploit+搜索引擎工具Shodan
Pytorch 占用cpu资源过多
Transfer files between servers
Chapter 14 Manually create a REST service (2)
基于深度学习的裂缝检测技术
手撸架构,网络 面试36问
数据湖(一):数据湖概念
【云驻共创】数据工坊平台,0代码开发数据处理业务“快”人一步
redis cluster cluster, the ultimate solution?
以Boost为例的type3电压环补偿器实例
Problem solving in the process of using mosquitto
Chapter 11 Documents
excel 批量翻译-excel 批量函数公司翻译大全免费
Process finished with exit code 1
基于深度学习的裂缝检测技术
QAbstractScrollArea、QScrollArea
Learning Experience Sharing Seven: YOLOv5 Code Chinese Comments









