当前位置:网站首页>数据湖(一):数据湖概念
数据湖(一):数据湖概念
2022-08-02 11:45:00 【InfoQ】
数据湖概念
一、什么是数据湖
二、大数据为什么需要数据湖


- Kafka无法支持海量数据存储。对于海量数据量的业务线来说,Kafka一般只能存储非常短时间的数据,比如最近一周,甚至最近一天。
- Kafka无法支持高效的OLAP查询,大多数业务都希望能在DWD\DWS层支持即席查询的,但是Kafka无法非常友好地支持这样的需求。
- 无法复用目前已经非常成熟的基于离线数仓的数据血缘、数据质量管理体系。需要重新实现一套数据血缘、数据质量管理体系。
- Kafka不支持update/upsert,目前Kafka仅支持append。
三、数据湖与数据仓库的区别
- 存储数据类型
- 数据处理模式


边栏推荐
猜你喜欢

Crack detection technology based on deep learning

受邀出席Rust开发者大会|Rust如何助力量化高频交易?

如何通过DBeaver 连接 TDengine?

华为eNSP(基础实验通信)

翻译英语的软件-免费翻译软件-各种语言互相翻译

STM32+MPU6050 Design Portable Mini Desktop Clock (Automatically Adjust Time Display Direction)

注意力机制

sqli-labs(less-11)

Camera Hal OEM模块 ---- cmr_snapshot.c

Nanny Level Tutorial: Write Your Own Mobile Apps and Mini Programs (Part 2)
随机推荐
【Acunetix-Forgot your password】
openresty 性能优化
QT笔记——QT类反射机制简单学习
字母交换--字符串dp
Hub and Spoke配置案例
yolo格式(txt)数据集转VOC(xml)
DTG-SSOD:最新半监督检测框架,Dense Teacher(附论文下载)
When not to use () instead of Void in Swift
免费文档翻译-免费批量文档翻译软件推荐
细学常用类,集合类,IO流
服务器间传输文件
Crack detection technology based on deep learning
Oracle降低高水位
QT笔记——在一个窗口上显示另外一个透明窗口
借小程序容器打造自有App小程序生态
中原银行实时风控体系建设实践
npm run serve启动报错npm ERR Missing script “serve“
划分训练集,验证集,测试集
匹配滤波(四种滤波器的幅频特性)
Pytorch 占用cpu资源过多