当前位置:网站首页>各厂商的数据湖解决方案
各厂商的数据湖解决方案
2022-06-09 14:27:00 【InfoQ】
1 AWS数据湖解决方案



2 华为数据湖解决方案

- 借助DIS,DLI可以定义各类数据点,这些点可以在Flink作业中被使用,做为source或者sink;
- 借助CDM,DLI甚至能接入IDC、第三方云服务的数据。

3 阿里云数据湖解决方案

- 数据接入与搬迁。在建湖过程中,DLA的Formation组件具备元数据发现和一键建湖的能力,在本文写作之时,目前“一键建湖”还只支持全量建湖,但是基于binlog的增量建湖已经在开发中了,预计近期上线。增量建湖能力会极大的增加数据湖中数据的实时性,并将对源端业务数据库的压力降到最下。这里需要注意的是,DLA Formation是一个内部组件,对外并没有暴露。
- 数据资源目录。DLA提供Meta data catalog组件对于数据湖中的数据资产进行统一的管理,无论数据是在“湖中”还是在“湖外”。Meta data catalog也是联邦分析的统一元数据入口。
- 在内置计算引擎上,DLA提供了SQL计算引擎和Spark计算引擎两种。无论是SQL还是Spark引擎,都和Meta data catalog深度集成,能方便的获取元数据信息。基于Spark的能力,DLA解决方案支持批处理、流计算和机器学习等计算模式。
- 在外围生态上,除了支持各类异构数据源做数据接入与汇聚之外,在对外访问能力上,DLA与云原生数据仓库(原ADB)深度整合。一方面,DLA处理的结果可之际推送至ADB中,满足实时、交互式、ad hoc复杂查询;另一方面,ADB里的数据也可以借助外表功能,很方便的进行数据回流至OSS中。基于DLA,阿里云上各类异构数据源可以完全被打通,数据自由流动。
- 在数据集成和开发上,阿里云的数据湖解决方案提供两种选择:一种是采用dataworks完成;另一种是采用DMS来完成。无论是选择哪种,都能对外提供可视化的流程编排、任务调度、任务管理能力。在数据生命周期管理上,dataworks的数据地图能力相对更加成熟。
- 在数据管理和数据安全上,DMS提供了强大的能力。DMS的数据管理粒度分为“库-表-列-行”,完善的支持企业级的数据安全管控需求。除了权限管理之外,DMS更精细的地方是把原来基于数据库的devops理念扩展到了数据湖,使得数据湖的运维、开发更加精细化。

- 使用同源的SQL解析引擎。DLA的SQL与ADB的SQL语法上完全兼容,这意味着开发者使用一套技术栈即能同时开发数据湖应用和数仓应用。
- 都内置了对于OSS的访问支持。OSS直接作为DLA的原生存储存在;对于ADB而言,可以通过外部表的能力,很方便的访问OSS上的结构化数据。借助外部表,数据可以自由的在DLA和ADB之间流转,做到真正的湖仓一体。
- 可以保存各类结构化、半结构化和非结构化数据;
- 可以对接各类异构数据源;
- 具备元数据发现、管理、同步等能力;
- 内置的SQL/Spark计算引擎具备更强的数据处理能力,满足多样化的数据处理需求;
- 具备全量数据的全生命周期管理能力。基于DLA+ADB的湖仓一体化方案,将同时覆盖“大数据平台+数据仓库”的处理能力。

4 Azure数据湖解决方案

- 开发工具的支持,与visual studio的深度集成;Azure推荐使用U-SQL作为数据湖分析应用的开发语言。Visual studio为U-SQL提供了完备的开发环境;同时,为了降低分布式数据湖系统开发的复杂性,visual studio基于项目进行封装,在进行U-SQL开发时,可以创建“U-SQL database project”,在此类项目中,利用visual studio,可以很方便的进行编码与调试,同时,也提供向导,将开发好的U-SQL脚本发布到生成环境。U-SQL支持Python、R进行扩展,满足定制开发需求。
- 多计算引擎的适配:SQL, Apache Hadoop和Apache Spark。这里的hadoop包括Azure提供的HDInsight(Azure托管的Hadoop服务),Spark包括Azure Databricks。
- 多种不同引擎任务之间的自动转换能力。微软推荐U-SQL为数据湖的缺省开发工具,并提供各类转换工具,支持U-SQL脚本与Hive、Spark(HDSight&databricks)、Azure Data Factory data Flow之间的转化。
5 小结

边栏推荐
- Award winning research
- Web3 的“中国特色”
- Huawei announced its top ten inventions: efficient additive network and multi-objective game intelligent driving
- 为什么 SQL 语句使用了索引,但却还是慢查询?
- List used by icomponent of unity dots
- 有奖调研
- I customized a mechanical keyboard for the InfoQ writing community to celebrate my birthday
- 最成功也最差劲的CEO去世,索尼还是走在他的老路上
- CVPR 2022 | 逆渲染中的⾼效间接光照建模
- Will quic become a disruptor of Internet transmission?
猜你喜欢

Qt msvc编译器中文问题解决,中文乱码以及无法正常编译

Hongmeng porting i.mx6ull (VI) kconfig_ GCC_ Mkefile

MySQL数据库的日志管理

CICC digital intelligence China II: five questions and five answers to database business market

研一自然辩证法期末考试试卷2

5年没发论文,读博想放弃?中科大博导万字自述:曾连收13封拒稿信...

分布式限流之基于Sentinel实现的限流漫谈(一)-概述

Using kubekey to build kubernetes/kubesphere environment“

【论文】Cascade RPN: Delving into high-quality region proposal network with Adaptive Convolution

The white paper on the panorama of the digital economy, bank wealth management, was released
随机推荐
Hongmeng porting i.mx6ull (VI) kconfig_ GCC_ Mkefile
497. 非重叠矩形中的随机点
高速缓冲存储器Cache地址映像与变换及相联目录表的设计
Mba-day20 indefinite equation problems - exercises
避免滥用class样式
AE脚本-网格参考线黄金分割线生成工具 GuidesUp! 2.2激活版
喜报 | 旺链科技签约汨罗市文旅体产业项目,打造“链”上数字乡村
今天19:30 | 图形学专场—中国科学院计算技术研究所高林老师团队
為什麼 SQL 語句使用了索引,但卻還是慢查詢?
【云原生 | Kubernetes篇】深入了解Pod(六)
Graphpad prism 9 for Mac
The golden band is the fourth largest operator's mace, and farmers will get low-cost 5g services
Geoffrey Hinton最新访谈:不出五年,我们就会破解大脑的运作机制,但不是通过反向传播
Tailwind 导致 antd 的 button icon 不居中的 bug
【实战】Redis Cluster(下)-系统版本支持问题
insert into select/update
【云原生 | Kubernetes篇】深入了解Pod(六)
为什么 SQL 语句使用了索引,但却还是慢查询?
Meanings of 10 important concepts and charts in Data Science
Hongmeng transplantation i.mx6ull (V) overview of transplantation