当前位置:网站首页>Alluxio为Presto赋能跨云的自助服务能力
Alluxio为Presto赋能跨云的自助服务能力
2022-07-30 14:38:00 【Alluxio】
目录
本文重点介绍两大流行开源项目Alluxio 和 Presto之间的协同作用,并展示如何利用两者实现跨云自助服务数据架构。
作者介绍
范斌 Alluxio VP Open Source and Founding Member
Adit Madan Alluxio Senior Product Manager
Jasmine Wang Alluxio Community Manager
什么样的架构能够称之拥有自助服务能力?
我们先来探讨一个问题,满足什么条件,这个架构才能称得上是自助服务。
条件1:随着数据平台的更新换代,架构无需修改
所有的数据平台都会随着时间的推移而演进,包括增加新的数据存储、计算引擎,或者有新的团队需要访问共享数据。无论哪种情况,如果这些变化而不需要对现有架构进行修改,则这样的平台是能够自助服务。
条件2:跨团队的数据隔离
有了自助服务平台,业务部门之间不会互相干扰。当有新团队加入时,数据可以共享,新增的数据访问不会影响原有平台的使用。
如果能满足上述两个条件,也就实现了敏捷性。在设计架构的时候,考虑能否实现自助式服务比考虑物理架构的成本更重要。
设计数据平台的考虑因素
下面,我们将介绍设计自助服务平台时的部分考虑因素,以及简化的架构模式和解决方案。
考量1:数据是共享的
在不同的计算框架之间共享数据
- 企业在数据平台中会使用各类计算引擎,每个引擎都完成某个特定的任务,例如,先进行ETL批处理,然后用Presto进行交互式查询。这就意味数据要在不同引擎、不同的团队之间共享
- 例如,一个团队负责收集业务数据,数据共享给多个业务部门使用
跨区域的数据中心以及跨云厂商共享数据
- 这样可以灵活地选择最优的存储环境和云服务
如何在解决数据共享问题,我们提出一个抽象层的概念,利用抽象层实现跨跨环境的异构计算。Alluxio正是提供了这样的跨云抽象层,无论数据存储在哪里,都能让Presto和其他计算引擎之间实现无缝数据共享。

考量2:数据拥有所属的业务领域,最简单的方式是留在原地处理
- 虽然拷贝能实现数据隔离,但当数据访问策略十分严格时,需要对数据生产者对数据的使用需要严格控制,整个数据治理会变得非常复杂。
- 数据拷贝导致存储空间冗余,容易出错,占用很多的资源。
拷贝数据显然不是理想的解决方案,但如何在不移动数据的情况下对异构的数据访问实现高性能?这就需要通过抽象层来解决数据治理、性能和跨业务移动数据的问题。
下面的架构展示Presto如何利用Alluxio作为抽象层来访问位于不同存储环境的数据。

一般会遇到这两种情况:
- 全部数据都在单云或单个数据中心中
- 数据在多个数据中心或混合云中共享
不管哪种情况,Alluxio都能作为抽象层来实现数据使用者和生产者的隔离。抽象层并非仅仅用作缓存,事先的预加载和写入能力可以确保即使是在数据与计算分离的情况下, SLA也能保持一致。

结论
Alluxio为Presto赋能了自助服务的能力,通过Alluxio可实现跨云的自助服务数据架构,整个架构能够更好地适应数据平台的演进。如果想要了解更多信息,可查看白皮书《Alluxio+Presto概述——交互式查询的架构演变》,了解Facebook、TikTok、Electronic Arts、沃尔玛、腾讯、Comcast等公司如何利用Alluxio优化Presto平台。
边栏推荐
- MaxWell scraped data
- [Enlightenment by Opportunity-53]: "Sushu"-3- Self-cultivation and Self-cultivation
- 使用 protobuf 进行数据序列化
- Before quitting, make yourself a roll king
- 1222. 可以攻击国王的皇后-力扣双百代码
- JSON常用注解
- localhost与127.0.0.1
- postgresql的普通字符串和转义字符串
- 4 senior experts share the insider architecture design and implementation principles of Flink technology with years of experience in large factories
- Teach you how to write an eye-catching software testing resume, if you don't receive an interview invitation, I will lose
猜你喜欢

容器排序案例

71页全域旅游综合整体解决方案2021 ppt

吃透Chisel语言.28.Chisel进阶之有限状态机(二)——Mealy状态机及与Moore状态机的对比

Teach you how to write an eye-catching software testing resume, if you don't receive an interview invitation, I will lose

Our company has used gateway services for 6 years, dynamic routing, authentication, current limiting, etc., a stable batch!

MongoDB starts an error Process: 29784 ExecStart=/usr/bin/mongod $OPTIONS (code=exited, status=14)

华为再发「天才少年」召集令!曾放弃360万年薪的他也来首秀

71-page comprehensive overall solution for global tourism 2021 ppt

开源工具推荐:高性能计算辅助工具MegPeak

PyQt5快速开发与实战 9.1 使用PyInstaller打包项目生成exe文件
随机推荐
剑指 Offer II 037. 小行星碰撞
The website adds a live 2d kanban girl that can dress up and interact
阿里CTO程立:阿里巴巴的开源历程、理念和实践
Huawei's 7-year-experienced software testing director, gives some advice to all friends who want to change careers to learn software testing
English语法_不定代词 - both / either / neither
71页全域旅游综合整体解决方案2021 ppt
What is Ts?
About the data synchronization delay of MySQL master-slave replication
JSON common annotations
泡沫褪去,DeFi还剩下什么
[In-depth study of 4G/5G/6G topic-46]: 5G Link Adaption Link Adaption-2-Common Abbreviations
JUC常见的线程池源码学习 02 ( ThreadPoolExecutor 线程池 )
localhost with 127.0.0.1
基于5G的仓储信息化解决方案2022
Flink优化
Metaverse Post Office AI space-themed series of digital collections will be launched at 10:00 on July 30th "Yuanyou Digital Collection"
网站添加能换装可互动的live 2d看板娘
What should I do if the sql server installation fails (what should I do if the sql server cannot be installed)
MongoDB starts an error Process: 29784 ExecStart=/usr/bin/mongod $OPTIONS (code=exited, status=14)
ToDesk版本更新,引入RTC传输技术,是否早以替代向日葵远程控制?