当前位置:网站首页>数据仓库知识点
数据仓库知识点
2022-07-26 22:40:00 【不会打球的摄影师不是好程序员】
1.数仓分层
1.为什么要分层?
1.把复杂问题简单化
2.减少重复开发
3.隔离原始数据
2.分为哪几层?
1.ODS(Operation Data Store):原始数据层
2.DWD(Data Warehouse Detail):明细数据层(对ODS层的数据清洗,去空值,脏数据等等)
3.DWS(Data Warehouse Service):数据服务层(例如按天进行轻度汇总)
4.DWT(Data Warehouse Topic):数据主题层(对数据累计汇总)
5.ADS(Application Data Store):数据应用层(为之后各种统计报表提供数据)
3.数据集市
是一种微型的数仓,是部门级别的,而数据仓库是企业级别的。
2.数仓理论
1.范式理论
1.范式(规范化的模式)可以理解为设计一张表的表结构,符合的标准级别,规范和要求。
2.优点:可以降低数据的冗余性
缺点:获取数据时,需要通过join拼接得到最终的数据
2.三大范式
1.第一范式:核心原则属性不可分割
2.第二范式:核心原则部分函数依赖
3.第三范式:核心原则不能存在传递函数依赖
3.维度建模
维度建模专门用于分析数据库、数据仓库、数据集市的建模方法。
包含:
1.事实表
必然存在一些数据(订单表,,,,)是一堆主键的集合,每个主键对应一条记录
2.维度表
以合适的角度来创建表,分析问题的一个角度(时间、地域等等)
1.维度建模的三种方式:
1.星型模型:以事实表为中心,所有的维度表直接在事实表上。(创建方式简单,常用)
2.雪花模型:维度表可以拥有其他的维度表,不容易维护,不推荐使用
3.星座模型:基于多张事实表,而且共享维度信息。(事实表间可以共享某些维度)
2.维度建模的四个步骤
1.选择业务过程
2.生命粒度
3.确认维度
4.确认事实
4.事实表
1.事实表粒度
事实表的粒度是产生事实行的度量事件的业务定义。粒度确定了事实表的业务主键, 事实表的所有度量值必须具有相同的粒度。
2.事实表类型
1.事务事实表
它是面向事务的,其粒度是每一行对应一个事务,它是最细粒度的事实表。
2.周期快照事实表
它是按照良好的时间周期间隔(每天,每月)来捕捉业务活动的执行情况,一旦装入事实表就不会再去更新,它是事务事实表的补充,而非替代品。
3.累计快照事实表
它用于描述业务过程中某个不确定时间跨度里的活动,它随着业务活动的发生会不断的更新。

边栏推荐
- Application of encoding in XSS
- [WUSTCTF2020]CV Maker
- [HITCON 2017]SSRFme
- JSCORE day_ 04(7.5)
- [BJDCTF2020]EzPHP
- 【Codeforces Round #807 (Div 2.) A·B·C】
- 2022.7.10DAY602
- 基于Flink实时项目:用户行为分析(二:实时流量统计)
- The detailed process of reinstalling AutoCAD after uninstallation and deleting the registry
- Doris或StarRocks Jmeter压测
猜你喜欢

Checked status in El checkbox 2021-08-02

14 web vulnerability: types of SQL injection and submission injection
![[HarekazeCTF2019]encode_and_encode](/img/f5/c06523a1764717bdf2d91f069c9d77.png)
[HarekazeCTF2019]encode_and_encode

MySQL8.0中的隐藏索引和降序索引(新特性)
![[CISCN2019 华东南赛区]Double Secret](/img/51/9597968ff1747a67e10a70b785ee9f.png)
[CISCN2019 华东南赛区]Double Secret

DOM day_ 03 (7.11) event bubbling mechanism, event delegation, to-do items, block default events, mouse coordinates, page scrolling events, create DOM elements, DOM encapsulation operations

CUDA version difference between NVIDIA SMI and nvcc -v

JSCORE day_02(7.1)
![[NCTF2019]SQLi](/img/a9/e103ccbbbb7dcf5ed20eb2bada528f.png)
[NCTF2019]SQLi
![[ciscn2019 North China division Day1 web2]ikun](/img/80/53f8253a80a80931ff56f4e684839e.png)
[ciscn2019 North China division Day1 web2]ikun
随机推荐
07 - 日志服务器的搭建与攻击
Flink1.11 intervalJoin watermark生成,状态清理机制源码理解&Demo分析
Flask学习最佳入门指南
Flink1.11 Jdcb方式写mysql测试用例
[HITCON 2017]SSRFme
FlinkSql多表(三表) join/interval join
Promise basic usage 20211130
05 - 钓鱼网站的攻击与防御
JS screen detection method summary 2021-10-05
10 Web APIs
Checked status in El checkbox 2021-08-02
[WUSTCTF2020]CV Maker
[Network Research Institute] attackers scan 1.6 million WordPress websites to find vulnerable plug-ins
Flink1.11 多并行度watermark测试
Elaborate on the differences and usage of call, apply and bind 20211031
2022.DAY600
[b01lers2020]Welcome to Earth
2022.7.16DAY606
Spark数据倾斜解决办法
DOM day_ 01 (7.7) introduction and core operation of DOM