当前位置:网站首页>数仓的基本概念
数仓的基本概念
2022-06-10 14:06:00 【InfoQ】
1. 数据仓库架构

2. 数据仓库概念
1) 基本特征
- 面向主题:
- 集成性:
- 要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
- 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

- 非易失性(不可更新性):
- 时变性:
3. 为什么要有数据仓库
- 某些业务数据由于安全或其他因素不能直接访问。
- 业务系统的版本变更很频繁,每次变更都需要重写分析系统并重新测试。
- 很难建立和维护汇总数据来源于多个业务系统版本的报表。
- 业务系统的列名通常是硬编码,有时仅仅是无意义的字符串,这让编写分析系统更加困难。
- 业务系统的数据格式,如日期、数字的格式不统一。
- 业务系统的表结构为事务处理性能而优化,有时并不适合查询与分析。
- 没有适当的方式将有价值的数据合并进特定应用的数据库。
- 没有适当的位置存储元数据。
- 用户需要看到的显示数据字段,有时在数据库中并不存在。
- 通常事务处理的优先级比分析系统高,所以如果分析系统和事务处理运行在同一硬件之上,分析系统往往性能很差。
- 有误用业务数据的风险。
- 极有可能影响业务系统的性能。
4. 数据仓库与数据库的区别
5. 数据仓库分层架构

- 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
- 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。
6. 主要数据仓库架构
1. 数据集市架构
1) 独立数据集市

- 从业务角度看,当部门的分析需求扩展,或者需要分析跨部门或跨主题域的数据时,独立数据市场会显得力不从心。
- 当数据存在歧义,比如同一个产品,在A部门和B部门的定义不同时,将无法在部门间进行信息比较。
- 每个部门使用不同的技术,建立不同的ETL的过程,处理不同的事务系统,而在多个独立的数据集市之间还会存在数据的交叉与重叠,甚至会有数据不一致的情况。
2) 从属数据集市

- 性能:当数据仓库的查询性能出现问题,可以考虑建立几个从属数据集市,将查询从数据仓库移出到数据集市。
- 安全:每个部门可以完全控制他们自己的数据。
- 数据一致:因为每个数据集市的数据来源都是同一个数据仓库,有效消除了数据不一致的情况。
2. Inmon企业工厂架构

3. Kimball数据仓库架构

4. 混合型数据仓库架构

边栏推荐
- C#多线程学习笔记一
- [Chongqing University] information sharing of preliminary and second examinations (with postgraduate entrance examination group)
- Kotlin practises. Take login as an example. Anko simply uses it
- [note] about the problem of insufficient compilation mapping memory in keil
- C#多线程学习笔记四
- 【Vue/js】通过localStorage浏览器实现变量和对象的本地缓存(图文+完整源代码)
- 列表、数组和张量之间的相互转化
- Operation of simulated examination platform for theoretical question bank of refrigeration and air conditioning equipment operation in 2022
- Qualcomm has finally begun to develop its own core architecture after learning from the difficulties of assembling chips to maintain its competitive advantage
- What happened when the legendary login prompt failed to connect to the server? How to solve it?
猜你喜欢

【离散数学期复习系列】六、树

Resolve the error reported when installing gerapy: error: cannot uninstall 'certificate' It is a distutils installed project...

【解决】每次加载已经训练好的模型,生成的向量会有不同

C multithreading learning note 1

5.8G微波雷达模块使用,5.8G微波雷达模块工作原理和介绍

还在说大学排名是笑话?最新规定:世界top50大学可以直接落户上海!

解决安装gerapy的时候报错:ERROR: Cannot uninstall ‘certifi‘. It is a distutils installed project...

Solve the problem of cross sea high concurrent crash? so easy

C#多线程学习笔记二

Flutter Wrap Button bottomNavigationBar学习总结4
随机推荐
大厂必备的40个方法论
lua 表操作
UE5如何將屏幕坐標轉為世界坐標和世界方向
单例模式和特殊类设计
一次主从表集成流程开发过程
anaconda安装opencv(cv2),在jupyter notebook中使用
MMdetection增加评估指标precision
【笔记】关于keil中的出现的编译映射内存不足的问题
Textinputlayout usage details
Net core Tianma XingKong series - Interface Implementation for dependency injection and mutual conversion of database tables and C entity classes
1
Design tools and skills for beginners to build their own blog
Qualcomm has finally begun to develop its own core architecture after learning from the difficulties of assembling chips to maintain its competitive advantage
Operation of simulated examination platform for theoretical question bank of refrigeration and air conditioning equipment operation in 2022
[FAQ] résumé des problèmes courants et des solutions lors de l'utilisation de l'interface API rest du Service de santé sportive
Celery 异步调用方法改动记录
About native SQL and database methods in PHP framework
D:\setup Exe could not find the problem
【FAQ】運動健康服務REST API接口使用過程中常見問題和解决方法總結
【FAQ】运动健康服务REST API接口使用过程中常见问题和解决方法总结