当前位置:网站首页>数据湖(一):数据湖概念
数据湖(一):数据湖概念
2022-08-02 11:45:00 【InfoQ】
数据湖概念
一、什么是数据湖
二、大数据为什么需要数据湖


- Kafka无法支持海量数据存储。对于海量数据量的业务线来说,Kafka一般只能存储非常短时间的数据,比如最近一周,甚至最近一天。
- Kafka无法支持高效的OLAP查询,大多数业务都希望能在DWD\DWS层支持即席查询的,但是Kafka无法非常友好地支持这样的需求。
- 无法复用目前已经非常成熟的基于离线数仓的数据血缘、数据质量管理体系。需要重新实现一套数据血缘、数据质量管理体系。
- Kafka不支持update/upsert,目前Kafka仅支持append。
三、数据湖与数据仓库的区别
- 存储数据类型
- 数据处理模式


边栏推荐
猜你喜欢

AQS-AbstractQueuedSynchronizer
![[kali-information collection] (1.8) ARP reconnaissance tool _Netdiscover](/img/04/f477cd8726d147b892f6050d46c312.png)
[kali-information collection] (1.8) ARP reconnaissance tool _Netdiscover

QAbstractScrollArea、QScrollArea

Multithreading (Basic) - 40,000 word summary

npm run serve启动报错npm ERR Missing script “serve“

OLED的HAL库代码介绍及使用(stm32f1/I2C/HAL库版/100%一次点亮)

【kali-信息收集】(1.8)ARP侦查工具_Netdiscover

CAN总线的AUTOSAR网络管理

中原银行实时风控体系建设实践

CCF paper conference IEEE how to query all articles of a conference journal
随机推荐
华为eNSP(基础实验通信)
CAN总线的AUTOSAR网络管理
ansible模块--yum模块
ansible module --yum module
半夜赶工制作简报的我好想说 : 确定了,最终稿就是这样
【kali-信息收集】(1.8)ARP侦查工具_Netdiscover
ansible module --copy module
微信小程序---组件开发与使用
SQL(面试实战07)
X86函数调用模型分析
如何在 UE4 中制作一扇自动开启的大门
“纯C”实现——三子棋小游戏
元宇宙“吹鼓手”Unity:疯狂扩局,悬念犹存
ssm网页访问数据库数据报错
sva 断言资料
OSI 七层模型和TCP/IP模型及对应协议(详解)
10份重磅报告 — 展望中国数字经济未来
Learning Experience Sharing Seven: YOLOv5 Code Chinese Comments
npm install报错npm ERR Could not resolve dependency npm ERR peer
Idea 全局搜索(idea如何全局搜索关键字)