当前位置:网站首页>【数仓】数据质量
【数仓】数据质量
2022-07-30 05:42:00 【和风与影】
今天是 618,年中大促。往年 618、双 11 都会参与,买些东西,今年没有参加的欲望。不知道是不是因为在上海隔离太久了,感觉从冬天隔离到了夏天,觉得衣服、鞋子之类的都没那么必要了,囤点蔬菜、粮食才是真的…听说京东的暑期实习生都变成了日常实习生,618 之后开始裁员,不知道真的假的,经济不行了,互联网也不景气。
上面都是题外话。之前找实习,二面被问了一个问题:数据质量了解吗?当时没有答出来。现在接触了实际工作,发现有专门的数据质量管理平台,大概就是对数据、任务从各种角度进行监测,今天大概说一下。
1.定义
数据质量管理是对数据产生、加工、消费的整个数据生命周期的质量管控,具体的维度包括:
- 准确性
- 完整性
- 一致性
- 及时性
- 有效性
- 唯一性
数据生产阶段:由于系统异常或系统流程等问题,导致的数据缺失或数据的不准确。
数据加工和消费阶段:加工过程中,数据抽取的完整性能否与系统产生的数据保持一致、数据产出是否及时等质量问题。
2.目标
针对数仓体系中的表建立一套质量评估体系,从数据的完整性、准确性、⼀致性、有效性、及时性、唯一性等维度进行评价,去引导对数表的建设和对数表准确性进行合理评估。
3.实施
简单来说就是通过一系列规则,从全链路、多角度去监测一些指标,形成质量报告,对质量进行评价。这里举一些需要监控的指标的例子:
- 表:主键、数据量(行数、占用磁盘大小);
- 字段:空值行数的占比、重复行数、固定值行数、枚举个数、枚举范围、长度;
- SLA:对外承诺的最晚产出时间(任务延迟时报警);
每周要进行复盘,对事故、破线、报警个数、报警率、起夜次数进行记录,分析原因,对任务进行优化。
欢迎点击此处关注公众号。
边栏推荐
- 认识虚拟dom
- jsonpath
- Application Practice | Application Practice of Apache Doris in Baidu Intelligent Cloud Billing System
- C#下利用开源NPlot绘制股票十字交叉线
- 3 minutes to tell you how to become a hacker | Zero foundation to hacker introductory guide, you only need to master these five skills
- 0基础玩转C语言—初识C语言(下)
- Communication middleware Fast DDS basic concepts and communication examples
- CTF之misc-音视频隐写
- POI工具类
- 怎么判断大小端(网络字节序和主机字节序)
猜你喜欢
随机推荐
C#利用开源NPlot实现K线图(蜡烛图)
DVWA安装教程(懂你的不懂·详细)
社区版idea 最右侧没有Database怎么办
Redis简单了解
awd——waf部署
sqli-labs less3/4打靶笔记
强国杯初赛WP
uni-app installs components using npm commands
umi后台项目导航自定义icon问题
复习 redux 总结
函数解剖——深挖getchar()与putchar()
POI工具类
js 去除掉对象中的null,‘‘,[],{}
js 实现自定义签名
div设置一个最小高度和最大高度,但是中间可以靠内容撑开
FastAPI 快速入门
[网鼎杯 2020 青龙组]AreUSerialz
misc-log analysis of CTF
使用Nodejs搭建Web Server(入门教程)
0基础玩转C语言—初识C语言(上)

![[HCTF 2018]admin](/img/4e/58234ca163c22fc334334eb89a5b00.png)






