当前位置:网站首页>【数仓】数据质量
【数仓】数据质量
2022-07-30 05:42:00 【和风与影】
今天是 618,年中大促。往年 618、双 11 都会参与,买些东西,今年没有参加的欲望。不知道是不是因为在上海隔离太久了,感觉从冬天隔离到了夏天,觉得衣服、鞋子之类的都没那么必要了,囤点蔬菜、粮食才是真的…听说京东的暑期实习生都变成了日常实习生,618 之后开始裁员,不知道真的假的,经济不行了,互联网也不景气。
上面都是题外话。之前找实习,二面被问了一个问题:数据质量了解吗?当时没有答出来。现在接触了实际工作,发现有专门的数据质量管理平台,大概就是对数据、任务从各种角度进行监测,今天大概说一下。
1.定义
数据质量管理是对数据产生、加工、消费的整个数据生命周期的质量管控,具体的维度包括:
- 准确性
- 完整性
- 一致性
- 及时性
- 有效性
- 唯一性
数据生产阶段:由于系统异常或系统流程等问题,导致的数据缺失或数据的不准确。
数据加工和消费阶段:加工过程中,数据抽取的完整性能否与系统产生的数据保持一致、数据产出是否及时等质量问题。
2.目标
针对数仓体系中的表建立一套质量评估体系,从数据的完整性、准确性、⼀致性、有效性、及时性、唯一性等维度进行评价,去引导对数表的建设和对数表准确性进行合理评估。
3.实施
简单来说就是通过一系列规则,从全链路、多角度去监测一些指标,形成质量报告,对质量进行评价。这里举一些需要监控的指标的例子:
- 表:主键、数据量(行数、占用磁盘大小);
- 字段:空值行数的占比、重复行数、固定值行数、枚举个数、枚举范围、长度;
- SLA:对外承诺的最晚产出时间(任务延迟时报警);
每周要进行复盘,对事故、破线、报警个数、报警率、起夜次数进行记录,分析原因,对任务进行优化。
欢迎点击此处关注公众号。
边栏推荐
猜你喜欢

SSTI range

连接云服务器Docker中的Mysql 详细图文操作(全)

用h1~h5标题时候,但是如果不要加粗的效果,处理方法如下
Misc of CTF-image steganography

uni-app使用npm命令安装组件
Misc of CTF - other types of steganography

uni-app installs components using npm commands

3 minutes to tell you how to become a hacker | Zero foundation to hacker introductory guide, you only need to master these five skills

Arrays工具类的使用

Blind injection, error injection, wide byte injection, stack injection study notes
随机推荐
Sql操作
Detailed MySQL-Explain
php-fpm
sqli-labs靶场 SQL注入学习 Less-1
[PASECA2019]honey_shop
Misc of CTF-Memory Analysis (Volatility)
FastAPI Quick Start
连接云服务器Docker中的Mysql 详细图文操作(全)
Solution to TypeError The view function did not return a valid response. The function either returned None
最新版redis6.3.2下载安装
sqli-labs less3/4 Targeting Notes
记一次Mailpress插件RCE漏洞复现
封装Cookie API
P3 元宝第三天的笔记
【墨者学院】身份认证失效漏洞实战
多线程之间的5中通信方式
【文献阅读】Age Progress/Regression by Conditional Adversarial Autoencoder 基于条件对抗自编码器(CAAE)的老化/去龄化方案
php漏洞全解
Understand JDBC in one article
C语言入门(前期准备工作)——超级详细的建议和教学,带你顺利跨越编程门槛