当前位置:网站首页>关于ETL的两种架构(ETL架构和ELT架构)
关于ETL的两种架构(ETL架构和ELT架构)
2022-08-01 22:09:00 【微服务 spring cloud】
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

ETL在转化的过程中,主要体现在以下几方面:
- 空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。
- 规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。
- 拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。
- 验证数据正确性:可利用Lookup及拆分功能进行数据验证。例如,主叫号861082585313-8148,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。
- 数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。
- Lookup:查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。
- 建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。
ETL架构的优势:
- ETL可以分担数据库系统的负载(采用单独的硬件服务器)
- ETL相对于EL-T架构可以实现更为复杂的数据转化逻辑
- ETL采用单独的硬件服务器。.
- ETL与底层的数据库数据存储无关.
ELT
在ELT架构中,ELT只负责提供图形化的界面来设计业务规则,数据的整个加工过程都在目标和源的数据库之间流动,ELT协调相关的数据库系统来执行相关的应用,数据加工过程既可以在源数据库端执行,也可以在目标数据仓库端执行(主要取决于系统的架构设计和数据属性)。当ETL过程需要提高效率,则可以通过对相关数据库进行调优,或者改变执行加工的服务器就可以达到。一般数据库厂商会力推该种架构,像Oracle和Teradata都极力宣传ELT架构。

ELT架构的优势:
- ELT主要通过数据库引擎来实现系统的可扩展性(尤其是当数据加工过程在晚上时,可以充分利用数据库引擎的资源)
- ELT可以保持所有的数据始终在数据库当中,避免数据的加载和导出,从而保证效率,提高系统的可监控性。
- ELT可以根据数据的分布情况进行并行处理优化,并可以利用数据库的固有功能优化磁盘I/O。
- ELT的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。
- 通过对相关数据库进行性能调优,ETL过程获得3到4倍的效率提升一般不是特别困难。
边栏推荐
- SOM Network 1: Principles Explained
- [Niu Ke brush questions-SQL big factory interview questions] NO4. Travel scene (a taxi)
- long investment career
- KMP 字符串匹配问题
- 小程序毕设作品之微信美食菜谱小程序毕业设计成品(5)任务书
- User Experience | How to Measure User Experience?
- 图论——强连通分量缩点+拓扑排序
- 迁移学习——Discriminative Transfer Subspace Learning via Low-Rank and Sparse Representation
- 不卷了!入职字节跳动一周就果断跑了。
- Shell programming conditional statement
猜你喜欢

用户体验 | 如何度量用户体验?

03. GO language variable definition, function

HCIP---Multiple Spanning Tree Protocol related knowledge points

不卷了!入职字节跳动一周就果断跑了。
SQL29 Calculate the average next day retention rate of users

Today's sleep quality record 74 points

SOM Network 2: Implementation of the Code

Postman 批量测试接口详细教程

10 Practical Uses of NFTs (NFT System Development)

Raspberry Pi information display small screen, display time, IP address, CPU information, memory information (C language), four-wire i2c communication, 0.96-inch oled screen
随机推荐
高等代数_证明_矩阵的行列式为特征值之积, 矩阵的迹为特征值之和
seaborn笔记:可视化统计关系(散点图、折线图)
Advanced Algebra_Proof_The algebraic multiplicity of any eigenvalue of a matrix is greater than or equal to its geometric multiplicity
联邦学习在金融领域的发展和应用
Dichotomy Medium LeetCode6133. Maximum Number of Groups
Kubernetes Scheduler全解析
Deep Learning Course2 Week 2 Optimization Algorithms Exercises
图论——强连通分量缩点+拓扑排序
blender3.2.1 unit setting
SQL29 Calculate the average next day retention rate of users
解决 win10 下 ISE14.7的 iMPACT 崩溃问题 - FPGA 笔记
The Microsoft campus ambassador to shout you to autumn recruit!
Lecture 3: Several common table field data types in MySQL database
number of solutions to solve a multivariate multi-degree equation
感觉自己好傻
数据分析面试手册《指标篇》
深度学习Course2第一周Practical aspects of Deep Learning习题整理
还在纠结报表工具的选型么?来看看这个
1. @Component注解的原理剖析
一种灵活的智能合约协作方式