当前位置:网站首页>数据湖(二十):Flink兼容Iceberg目前不足和Iceberg与Hudi对比
数据湖(二十):Flink兼容Iceberg目前不足和Iceberg与Hudi对比
2022-07-27 00:45:00 【华为云】
Flink兼容Iceberg目前不足和Iceberg与Hudi对比
一、Flink兼容Iceberg目前不足
- Iceberg目前不支持Flink SQL 查询表的元数据信息,需要使用Java API 实现。
- Flink不支持创建带有隐藏分区的Iceberg表
- Flink不支持带有WaterMark的Iceberg表
- Flink不支持添加列、删除列、重命名列操作。
- Flink对Iceberg Connector支持并不完善。
二、Iceberg与Hudi对比
Iceberg和Hudi都是数据湖技术,从社区活跃度上来看,Iceberg有超越Hudi的趋势。他们有以下共同点:
- 都是构建于存储格式之上的数据组织方式
- 提供ACID能力,提供一定的事务、并行执行能力
- 提供行级别数据修改能力。
- 提供一定的Schema扩展能力,例如:新增、修改、删除列操作。
- 支持数据合并,处理小文件。
- 支持Time travel 查询快照数据。
- 支持批量和实时数据读写
Iceberg与Hudi之间不同点在于以下几点:
- Iceberg支持Parquet、avro、orc数据格式,Hudi支持Parquet和Avro格式。
- 两者数据存储和查询机制不同
Iceberg只支持一种表存储模式,就是有metadata file、manifest file和data file组成存储结构,查询时首先查找Metadata元数据进而过滤找到对应的 SnapShot对应的manifest files ,再找到对应的数据文件。Hudi支持两种表存储模式:Copy On Write(写时合并) 和Merge On Read(读时合并),查询时直接读取对应的快照数据。
- 对于处理小文件合并时,Iceberg只支持API方式手动处理合并小文件,Hudi对于小文件合并处理可以根据配置自动的执行。
- Spark与Iceberg和Hudi整合时,Iceberg对SparkSQL的支持目前来看更好。Spark与Hudi整合更多的是Spark DataFrame API 操作。
- 关于Schema方面,Iceberg Schema与计算引擎是解耦的,不依赖任何的计算引擎,而Hudi的Schema依赖于计算引擎Schema。
边栏推荐
猜你喜欢
随机推荐
万字长文,带你搞懂 Kubernetes 网络模型
iNFTnews | GGAC联合中国航天ASES 独家出品《中国2065典藏版》
{“errcode“:44001,“errmsg“:“empty media data, hint: [1655962096234893527769663], from ip: 222.72.xxx.
Baidu cloud face recognition
[paper]PointLaneNet论文浅析
HCIP第十三天笔记
CS224W fall 1.2 Applications of Graph ML
OD-Paper【3】:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
[动态规划中等题] LeetCode 198. 打家劫舍 740. 删除并获得点数
Swiperjs custom width
ZJCTF_login
cocos小游戏实战-04-碰撞检测与NPC渲染
数据资产管理的概念
Coco test dev test code
批量复制宝贝上传提示乱码,如何解决?
Thread.Sleep(0)的作用
Okaleido tiger is about to log in to binance NFT in the second round, which has aroused heated discussion in the community
[dynamic planning medium] leetcode 198. looting 740. delete and get points
[哈希表] 刷题合集
go实现导出excel表格









