当前位置:网站首页>【数仓】数据质量
【数仓】数据质量
2022-07-30 05:42:00 【和风与影】
今天是 618,年中大促。往年 618、双 11 都会参与,买些东西,今年没有参加的欲望。不知道是不是因为在上海隔离太久了,感觉从冬天隔离到了夏天,觉得衣服、鞋子之类的都没那么必要了,囤点蔬菜、粮食才是真的…听说京东的暑期实习生都变成了日常实习生,618 之后开始裁员,不知道真的假的,经济不行了,互联网也不景气。
上面都是题外话。之前找实习,二面被问了一个问题:数据质量了解吗?当时没有答出来。现在接触了实际工作,发现有专门的数据质量管理平台,大概就是对数据、任务从各种角度进行监测,今天大概说一下。
1.定义
数据质量管理是对数据产生、加工、消费的整个数据生命周期的质量管控,具体的维度包括:
- 准确性
- 完整性
- 一致性
- 及时性
- 有效性
- 唯一性
数据生产阶段:由于系统异常或系统流程等问题,导致的数据缺失或数据的不准确。
数据加工和消费阶段:加工过程中,数据抽取的完整性能否与系统产生的数据保持一致、数据产出是否及时等质量问题。
2.目标
针对数仓体系中的表建立一套质量评估体系,从数据的完整性、准确性、⼀致性、有效性、及时性、唯一性等维度进行评价,去引导对数表的建设和对数表准确性进行合理评估。
3.实施
简单来说就是通过一系列规则,从全链路、多角度去监测一些指标,形成质量报告,对质量进行评价。这里举一些需要监控的指标的例子:
- 表:主键、数据量(行数、占用磁盘大小);
- 字段:空值行数的占比、重复行数、固定值行数、枚举个数、枚举范围、长度;
- SLA:对外承诺的最晚产出时间(任务延迟时报警);
每周要进行复盘,对事故、破线、报警个数、报警率、起夜次数进行记录,分析原因,对任务进行优化。
欢迎点击此处关注公众号。
边栏推荐
猜你喜欢
随机推荐
CTF之misc-音视频隐写
JDBC一文搞懂
JDBC programming of MySQL database
标准输入输出流(System.in,System.out)
Misc of CTF-Memory Analysis (Volatility)
The operations engineer interview experience
复习 redux 总结
【文献阅读】Age Progress/Regression by Conditional Adversarial Autoencoder 基于条件对抗自编码器(CAAE)的老化/去龄化方案
使用Context API维护全局状态
C#下利用开源NPlot绘制股票十字交叉线
Communication middleware Fast DDS basic concepts and communication examples
uni-app:关于自定义组件、easycom规范、uni_modules等问题
uni-app:uni-icons的使用及如何自定义图标
P3 元宝第六单元笔记
[网鼎杯 2020 青龙组]AreUSerialz
vulnhub-XXE ctf security question
torch分布式训练
Art-template 中文文档[详细篇]
strlen和sizeof的区别
npm run serve starts error npm ERR Missing script "serve"




![[HCTF 2018]admin](/img/4e/58234ca163c22fc334334eb89a5b00.png)



