当前位置:网站首页>数据湖(二):什么是Hudi
数据湖(二):什么是Hudi
2022-08-02 12:07:00 【InfoQ】
什么是Hudi
Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。
Hudi非常轻量级,可以作为lib与Spark、Flink进行集成
Hudi官网:
https://hudi.apache.org

Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:
- 快速upsert,可插入索引。
- 以原子方式操作数据并具有回滚功能。
- 写入器和查询之间的快照隔离。
- 用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
- 管理文件大小,使用统计数据布局。
- 行和列数据的异步压缩。
边栏推荐
- 从幻核疑似裁撤看如何保证NFT的安全
- 【Acunetix-忘记密码】
- npm WARN deprecated [email protected] This version of tar is no longer supported, and will not receive
- Idea 全局搜索(idea如何全局搜索关键字)
- doc2vec和word2vec(zigbee简介及应用)
- 使用kubesphere图形界面创建一个应用操作流程
- 雷克萨斯,锁死的安全,挡不住的心寒
- 力扣977-有序数组的平方——暴力法&双指针法
- The ex-boyfriend bought chili water and threatened to rob his daughter. Can the woman apply for a personal safety protection order?
- ASP.NET Core 6框架揭秘实例演示[31]:路由“高阶”用法
猜你喜欢
随机推荐
CCF论文会议 IEEE 如何查询某个会议期刊的所有文章
力扣151-颠倒字符串中的单词
【项目管理技术的优势】
Pytorch 占用cpu资源过多
Golang map数组按字段分类
MD5详解(校验文件完整性)
7种最常用数据分析思维,解决95%的分析难题
如何通过DBeaver 连接 TDengine?
解决anaconda下载pytorch速度极慢的方法
使用kubesphere图形界面创建一个devops的CI/CD流程
go语言的接口
Failure Analysis | A SELECT statement crashes MySQL, what happened?
darknet训练yolov4模型
numpy&pands 中的unique
Lexicon 27 - Remove Elements - Simple Questions
【Acunetix-忘记密码】
jacoco的学习以及理解
【MySQL系列】- LIKE查询 以%开头一定会让索引失效吗
手撸架构,网络 面试36问
用位运算为你的程序加速









