当前位置:网站首页>数据仓库面试问题准备
数据仓库面试问题准备
2022-07-04 12:50:00 【51CTO】
一、如何理解数据体系
包含数据模型、数据分层、数据主题划分、数据治理、元数据管理、数据安全权限、数仓可视化产品的完整数仓服务体系
二、数仓的目标是什么
数据质量和数据服务两个角度
数据质量:有序、有结构地分类组织和存储数据,避免重复建设和数据不一致性,保证数据的规范性
数据服务:提高数据使用体验,包括数据的准确度、数据产品提升数据可视化服务的体感
追问:怎么理解分类组织和存储
分类组织:组织映射到数仓的主题划分(横向)、分层(纵向)
存储:针对生命周期管理、数据治理
三、事实表分几种
- 基于分层、以及明细表类型
根据分层,原子指标组成明细事实表DWD,派生指标组成汇总事实表DWS
明细事实表又分为:事务事实表、累积快照事实表、周期快照事实表
- 展开说。。。
事务型事实表用来描述业务过程,跟踪空间或者时间上某点的度量时间,保存的是最原子的数据,也可以称作“原子事实表”
周期快照事实表以具有规律性的、可预见的时间间隔记录事实,时间间隔如每天、每月、每年等。
累计快照事实表用来表述过程开始和结束之间的关键步骤时间,覆盖过程的整个生命周期,通常具有多个日期字段来记录关键时间点,当过程随着生命周期不断变化时,记录也会随着过程的变化而被修改。
四、指标有哪一些内容
内容:原子指标、派生指标、衍生指标
关系
派生指标= 原子指标+时间周期+修饰词
派生指标又分为:事务型指标、存量型指标和复合型指标
事务型指标:是指对业务活动进行衡量的指标。例如:新发商品数,订单支付金额。是修饰词+原子指标
存量型指标:是指对实体对象(如商品、会员)某些状态的统计。例如:商品总数是修饰词+原子指标+周期(一般是历史截至至当前某个时间)
复合型指标:在事务型指标和存量型指标的基础上复合而成。
- 业务中的关联
- 原子指标、修饰类型和修饰词,直接归属在业务过程下,其中修饰词继承修饰类型的数据域,例如:A渠道的支付金额,通过支付可以知道是属于支付主域的,渠道是修饰渠道主题域的,可以是跨域的组合
- 派生指标可以选择多个修饰词,修饰词之间的关系为“或”或者“且”,例如:新客购买电子品类支付金额,修饰词:新客且电子产品
- 派生指标唯一归属一个原子指标,继承原子指标的数据域,与修饰词的数据域无关。例如:A渠道的支付金额,还是说的是支付金额
- 一般而言,如果遇到同时有两个行为发生,需要多个修饰词、生成一个派生指标的情况,则选择时间靠后的行为创建原子指标,选择时间靠前的行为创建修饰词,例如:A渠道的支付金额,先经历了渠道后才产生的交易,渠道就发生比较前,后再进行消费产生支付金额,原子指标就比较靠后
- 引申整个体系架构
- 确定企业层级和业务部门的数仓,然后去确认主题域,再去梳理业务过程,基础数据就是原子指标,落到DWD形成明细事实表,加上修饰词变成派生指标,形成轻度DWS汇总事实表,维度会经过维度退化和事实表关联。
五、维度退化到单事务型事实表里面和宽表的区别
前者还是代表是解耦业务过程的事实表,宽表是跨业务过程进行融合的表,强调多个业务流程
边栏推荐
- 中邮科技冲刺科创板:年营收20.58亿 邮政集团是大股东
- [antd] how to set antd in form There is input in item Get input when gourp Value of each input of gourp
- Assertion of unittest framework
- 吃透Chisel语言.05.Chisel基础(二)——组合电路与运算符
- SCM polling program framework based on linked list management
- Understand chisel language thoroughly 08. Chisel Foundation (V) -- wire, REG and IO, and how to understand chisel generation hardware
- The font of markdown grammar is marked in red
- 2022 Shandong Province safety officer C certificate examination question bank and online simulation examination
- 苹果5G芯片研发失败:继续依赖高通,还要担心被起诉?
- CVPR 2022 | greatly reduce the manual annotation required for zero sample learning, and propose category semantic embedding rich in visual information (source code download)
猜你喜欢
CVPR 2022 | 大幅减少零样本学习所需的人工标注,提出富含视觉信息的类别语义嵌入(源代码下载)...
【FAQ】华为帐号服务报错 907135701的常见原因总结和解决方法
Understand chisel language thoroughly 09. Chisel project construction, operation and testing (I) -- build and run chisel project with SBT
Introducing testfixture into unittest framework
Dgraph: large scale dynamic graph dataset
好博医疗冲刺科创板:年营收2.6亿 万永钢和沈智群为实控人
SCM polling program framework based on linked list management
2022 practice questions and mock exams for the main principals of hazardous chemical business units
Understand chisel language thoroughly 05. Chisel Foundation (II) -- combinational circuits and operators
Qt如何实现打包,实现EXE分享
随机推荐
吃透Chisel语言.09.Chisel项目构建、运行和测试(一)——用sbt构建Chisel项目并运行
Introducing testfixture into unittest framework
德明利深交所上市:市值31亿 为李虎与田华夫妻档
golang fmt. Printf() (turn)
Understand chisel language thoroughly 09. Chisel project construction, operation and testing (I) -- build and run chisel project with SBT
2022 Shandong Province safety officer C certificate examination question bank and online simulation examination
学内核之三:使用GDB跟踪内核调用链
Qt如何实现打包,实现EXE分享
1200. Minimum absolute difference
Blob, text geometry or JSON column'xxx'can't have a default value query question
[FAQ] Huawei Account Service Error Report 907135701 Common reasons Summary and Solutions
Deming Lee listed on Shenzhen Stock Exchange: the market value is 3.1 billion, which is the husband and wife of Li Hu and Tian Hua
Detailed explanation of Fisher information quantity detection countermeasure sample code
近日小结(非技术文)
R语言使用lattice包中的bwplot函数可视化箱图(box plot)、par.settings参数自定义主题模式
Applet live + e-commerce, if you want to be a new retail e-commerce, use it!
Error in find command: paths must precede expression (turn)
Use the default route as the route to the Internet
学习项目是自己找的,成长机会是自己创造的
Golang 使用 JSON unmarshal 数字到 interface{} 数字变成 float64 类型(转)