当前位置:网站首页>浅谈数仓的数据治理
浅谈数仓的数据治理
2022-07-27 20:00:00 【软件测试网】
绝大数公司建立数仓之初是没有考虑好数据治理怎么做的,因为数据部门刚开始成立,必然要有一些“数据驱动”的成果,而数据治理不能很好的体现这些业绩。所以,都是在业务发展的过程中,逐渐遇到了一些数据问题,才考虑做这件事的。

1.如何开始数据治理?
首先从数据管理开始,在开始数据治理之前,我们要先梳理数仓的核心资产。从数据的采集到数据的加工,再到数据的应用(包括数仓报表数据、指标数据)。
那么对于业务数据源,我们要明确数仓中主要的数据源都来自哪些业务系统,哪些关键流程,明确关键来源数据的数据负责人,结合业务制定数据管理规范。
2.数仓数据治理的思路
数仓的数据治理可以从以下几个关键点入手:数据目录重新划分,提高模型复用度,ETL任务优化、数据质量监控。
数据目录划分:
很多数仓刚开始设计的时候是没有完整清晰的规划的,慢慢数据目录会变得混乱无序,找某个模型会变得很繁琐。那么,这时候一个好的目录设计,会帮助我们理清数仓的架构,快速的查找定位模型,比如是在哪个层、哪个业务域等。 这些都清晰的展示出来时,数据开发的效率就会有快速的提升了。
模型复用:
离线数仓一般团队都比较大,上次跟快手的一个朋友聊,他们离线数仓都有上百人。所以模型的复用一定要关注,,比如关注一些复用度较高的字段,可以放到中间层统一处理,也就是我们说的有个大宽表提供复用;比如复用较高的函数或者逻辑,我们开发统一的UDF函数,提高数据处理性能。
任务优化:
每当你申请资源时,领导都会问你要价值和用途,其实除了申请额外的资源,我们还可以优化现有的资源。因为在数仓开发过程中,大家的技术水平良莠不齐,对业务理解程度相差甚大,那么此时,每个人开发的ETL任务的质量必然不一样。所以,我们需要时常对任务的执行时长和调用的资源进行监控,展开专项优化,比如降低输入数据量,大量distinct操作使用groupby替换等。当然,管理上可以把任务执行效率作为一个考核项,对不达标的进行晾晒。
数据质量:
主要是数据重复、空值、数据异常等情况的监控,一定要配置规则校验。上次直播,我讲过,并不是任务执行成功就完事大吉了,有时候任务执行成功的代价更为惨重。比如,以前的一个项目,会给老板推送业务指标短信,所以对这个任务加了失败告警监控,但是没有对内容进行校验,导致因为业务的异常数据,引起最后的指标异常,老板很生气,后果很严重。所以,我们还要考虑对于一些关键业务的数据指标监控,发现异常,及时终止下游任务,进行告警。当然,数据质量还有很多工作,之前的一篇文章也讲过,可以阅读《谈谈ETL中的数据质量》
3.总结
总而言之,数仓数据治理的价值很难量化,所以有很多数据团队不愿意去做,但是不做,会很“痒”。
如果,你开始做数仓治理了,那么就要做好长期作战的准备了,比如制定一些月度的资产管理相关的会议,进行回顾,定期对低效率任务进行优化,这都是需要一套管理机制的,而管理机制落地的最好方式应该就是和绩效考核绑定了。
边栏推荐
- 2022/5/18 考试总结
- 蓝牙框架总结
- SQL injection less29 (parameter pollution bypasses WAF)
- setContentView详解
- The purpose of DDD to divide domains, sub domains, core domains, and support domains
- ADI, Shijian and Junlong technology jointly donated 2.3 million yuan to help fight the epidemic in Hubei
- 紫光FPGA解决口罩难题!助力口罩生产全面提速
- 美国疫情扩散到28个州:苹果、微软等10多万员工在家办公,iPhone11快断货了!
- SSM整合流程
- 2022/6/9 考试总结
猜你喜欢

Starfish OS X metabell strategic cooperation, metauniverse business ecosystem further

What is the employment prospect of software testing?

SQL注入 Less26a(布尔盲注)

Chapter 3 business function development (choose to export market activities, Apache POI)

七大排序之希尔排序

【无标题】

Time relay

How to quickly pass the probation period for newly trained intermediate test engineers

Take you to master makefile analysis
![[illustration] shake hands three times and wave hands four times - it's enough to read this article carefully](/img/b1/af520cec44e849e8828a86fc7a2614.png)
[illustration] shake hands three times and wave hands four times - it's enough to read this article carefully
随机推荐
Hc32f4a0 clock control
Redis learning
可能导致索引失效的原因
2022/4/11 考试总结
Video human behavior detection
[binary tree] count the number of good nodes in the binary tree
cache学习
QT常见操作合集
What is private traffic?
第八章 通过 REST 使用 Web 会话(Sessions)
leetcode-470.用 Rand7() 实现 Rand10()
MediaTek and Samsung launched the world's first 8K TV that supports Wi Fi 6
美国疫情扩散到28个州:苹果、微软等10多万员工在家办公,iPhone11快断货了!
摩托罗拉诉海能达案一审结果出炉:海能达被判赔53亿元
HC32F4A0 时钟控制
联合省选2022复习计划
Jumpserver learning
细胞CLE19多肽荧光成像牛血清白蛋白荧光猝灭量子点的制备
[OBS] P B frame loss threshold buffer_ duration_ usec
Tab bar (addeventlistener and onclick practice, used with bind method, exponential growth to listen for events)

