当前位置:网站首页>数据仓库面试问题准备
数据仓库面试问题准备
2022-07-04 12:50:00 【51CTO】
一、如何理解数据体系
包含数据模型、数据分层、数据主题划分、数据治理、元数据管理、数据安全权限、数仓可视化产品的完整数仓服务体系
二、数仓的目标是什么
数据质量和数据服务两个角度
数据质量:有序、有结构地分类组织和存储数据,避免重复建设和数据不一致性,保证数据的规范性
数据服务:提高数据使用体验,包括数据的准确度、数据产品提升数据可视化服务的体感
追问:怎么理解分类组织和存储
分类组织:组织映射到数仓的主题划分(横向)、分层(纵向)
存储:针对生命周期管理、数据治理
三、事实表分几种
- 基于分层、以及明细表类型
根据分层,原子指标组成明细事实表DWD,派生指标组成汇总事实表DWS
明细事实表又分为:事务事实表、累积快照事实表、周期快照事实表
- 展开说。。。
事务型事实表用来描述业务过程,跟踪空间或者时间上某点的度量时间,保存的是最原子的数据,也可以称作“原子事实表”
周期快照事实表以具有规律性的、可预见的时间间隔记录事实,时间间隔如每天、每月、每年等。
累计快照事实表用来表述过程开始和结束之间的关键步骤时间,覆盖过程的整个生命周期,通常具有多个日期字段来记录关键时间点,当过程随着生命周期不断变化时,记录也会随着过程的变化而被修改。
四、指标有哪一些内容
内容:原子指标、派生指标、衍生指标
关系
派生指标= 原子指标+时间周期+修饰词
派生指标又分为:事务型指标、存量型指标和复合型指标
事务型指标:是指对业务活动进行衡量的指标。例如:新发商品数,订单支付金额。是修饰词+原子指标
存量型指标:是指对实体对象(如商品、会员)某些状态的统计。例如:商品总数是修饰词+原子指标+周期(一般是历史截至至当前某个时间)
复合型指标:在事务型指标和存量型指标的基础上复合而成。
- 业务中的关联
- 原子指标、修饰类型和修饰词,直接归属在业务过程下,其中修饰词继承修饰类型的数据域,例如:A渠道的支付金额,通过支付可以知道是属于支付主域的,渠道是修饰渠道主题域的,可以是跨域的组合
- 派生指标可以选择多个修饰词,修饰词之间的关系为“或”或者“且”,例如:新客购买电子品类支付金额,修饰词:新客且电子产品
- 派生指标唯一归属一个原子指标,继承原子指标的数据域,与修饰词的数据域无关。例如:A渠道的支付金额,还是说的是支付金额
- 一般而言,如果遇到同时有两个行为发生,需要多个修饰词、生成一个派生指标的情况,则选择时间靠后的行为创建原子指标,选择时间靠前的行为创建修饰词,例如:A渠道的支付金额,先经历了渠道后才产生的交易,渠道就发生比较前,后再进行消费产生支付金额,原子指标就比较靠后
- 引申整个体系架构
- 确定企业层级和业务部门的数仓,然后去确认主题域,再去梳理业务过程,基础数据就是原子指标,落到DWD形成明细事实表,加上修饰词变成派生指标,形成轻度DWS汇总事实表,维度会经过维度退化和事实表关联。
五、维度退化到单事务型事实表里面和宽表的区别
前者还是代表是解耦业务过程的事实表,宽表是跨业务过程进行融合的表,强调多个业务流程
边栏推荐
- Understand chisel language thoroughly 12. Chisel project construction, operation and testing (IV) -- chisel test of chisel test
- Unity shader learning (3) try to draw a circle
- 【Matlab】conv、filter、conv2、filter2和imfilter卷积函数总结
- Introducing testfixture into unittest framework
- Unittest框架中引入TestFixture
- CVPR 2022 | greatly reduce the manual annotation required for zero sample learning, and propose category semantic embedding rich in visual information (source code download)
- MySQL8版本免安装步骤教程
- 常见 content-type对应表
- JVM 内存布局详解,图文并茂,写得太好了!
- Huahao Zhongtian rushes to the scientific and Technological Innovation Board: the annual loss is 280million, and it is proposed to raise 1.5 billion. Beida pharmaceutical is a shareholder
猜你喜欢
MySQL 5 installation and modification free
Automatic filling of database public fields
CVPR 2022 | greatly reduce the manual annotation required for zero sample learning, and propose category semantic embedding rich in visual information (source code download)
【R语言数据科学】:交叉验证再回首
Understand chisel language thoroughly 12. Chisel project construction, operation and testing (IV) -- chisel test of chisel test
Unity shader learning (3) try to draw a circle
MySQL8版本免安装步骤教程
Hardware Basics - diode Basics
Fisher信息量检测对抗样本代码详解
吃透Chisel语言.06.Chisel基础(三)——寄存器和计数器
随机推荐
华昊中天冲刺科创板:年亏2.8亿拟募资15亿 贝达药业是股东
Applet live + e-commerce, if you want to be a new retail e-commerce, use it!
The font of markdown grammar is marked in red
吃透Chisel语言.10.Chisel项目构建、运行和测试(二)——Chisel中生成Verilog代码&Chisel开发流程
Fs7867s is a voltage detection chip used for power supply voltage monitoring of digital system
C language programming topic reference
1200. 最小绝对差
華昊中天沖刺科創板:年虧2.8億擬募資15億 貝達藥業是股東
SCM polling program framework based on linked list management
Detailed explanation of Fisher information quantity detection countermeasure sample code
R语言ggplot2可视化:gganimate包创建动画图(gif)、使用anim_save函数保存gif可视化动图
DGraph: 大规模动态图数据集
【FAQ】華為帳號服務報錯 907135701的常見原因總結和解决方法
【Antd踩坑】Antd Form 配合Input.Group时出现Form.Item所占据的高度不对
Gorm read / write separation (rotation)
Understanding and difference between viewbinding and databinding
Understand chisel language thoroughly 06. Chisel Foundation (III) -- registers and counters
吃透Chisel语言.06.Chisel基础(三)——寄存器和计数器
[C question set] of VII
[antd] how to set antd in form There is input in item Get input when gourp Value of each input of gourp