当前位置:网站首页>数据平台简介
数据平台简介
2022-06-24 07:03:00 【一个不靠谱的程序员】
目标
- 为了给各个业务平台提供稳定可靠的数据
- 提供一个通用的数据处理流程解决方案
- 生成一些面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合
- 整合多个数据源的历史数据进行细粒度的、多维的分析
- 说白了就是读取数据–>生产数据–>交付数据的过程
一些概念
ETL
ETL,Extraction-Transformation-Loading的缩写,中文名为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。
数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
目前要解决的问题
- 需要任务调度监控平台来管理数据读取、生产、交付的一系列脚本,任务的调度与监控。
- 需要一个API接口平台来满足一些数据的即席查询。
- 需要一个数据同步平台来将生产完成的数据同步到各个业务端。
- 需要一个数据检测平台来控制交付数据的质量。
- 需要一个BI数据展示的平台来清晰地展示不同角色关注的各个维度数据。
解决方案
- 使用airflow来搭建ETL系统,即编排调度一系列数据的采集脚本,清洗脚本,数据汇总,聚合,预计算多维度指标的工作。提供任务监控以及webUI可视化任务依赖。
- 使用dataX来完成数据同步工作。
- 使用lumen来做API接口平台。
- 数据检测平台和BI展示一期暂时不考虑。
技术栈
airflow(python)、lumen、postgreSQL、dataX、elasticsearch
后期基于数据量会做spark分布式集群离线计算,hdfs存储,流计算、hive等
理想状态
后期的日志分析可以接入ETL系统来分析用户行为,用户画像,提高系统的安全性。
对绩效日报,周报,年报等数据展示汇总提供更短的时延,降低业务系统的负载。
对ERP数据进行汇总分析来为领导层决策提供参考。
对APP日志进行汇总分析来为产品设计和运营提供一些数据事实依据。
同时面对数据极速增长情况下大数据分析也能够得心应手。
“罗马不是一天建成的”
边栏推荐
- DHCP, TFTP Foundation
- ZUCC_ Principles of compiling language and compilation_ Experiment 08 parsing LR parsing
- Markdown to realize text link jump
- ZUCC_编译语言原理与编译_实验05 正则表达式、有限自动机、词法分析
- 2021-03-16 comp9021 class 9 notes
- String转Base64
- MAYA重新拓布
- Ordinary token
- 【力扣10天SQL入门】Day3
- 2022 mobile crane driver special operation certificate examination question bank and online simulation examination
猜你喜欢

12-- merge two ordered linked lists

MAYA重新拓布

The article takes you to understand the security of Windows operating system and protect your computer from infringement

权限模型 DAC ACL RBAC ABAC

【关于运维和网工的差别,一文说透】
![[micro services ~nacos] Nacos service providers and service consumers](/img/b7/47ecd6979ccfeb270261681d6130be.png)
[micro services ~nacos] Nacos service providers and service consumers

js中通过key查找和更新对象中指定值的方法

Longhorn installation and use

【无标题】

JUC个人简单笔记
随机推荐
Understanding of the concept of "quality"
05-ubuntu安装mysql8
How to improve the customer retention rate in the operation of independent stations? Customer segmentation is very important!
11-- longest substring without repeated characters
2021-03-09 comp9021 class 7 Notes
ZUCC_ Principles of compiling language and compilation_ Experiment 08 parsing LR parsing
2021-03-11 comp9021 class 8 notes
win11在cmder中使用vim查看内容的时候空白
New technology practice, encapsulating the permission application library step by step with the activity results API
【力扣10天SQL入门】Day2
[acnoi2022] not a structure, more like a structure
成为IEEE学生会员
How to configure networkpolicy for nodeport in kubernetes
ZUCC_ Principles of compiling language and compilation_ Experiment 04 language and grammar
[xinliu-s6 new model +sa 3-star Xinghai] the new two-way server of the third generation chip was launched and the product was updated~
Use cpulimit to free up your CPU
2022 tea artist (intermediate) work license question bank and online simulation examination
2021-03-16 comp9021 class 9 notes
Pat 1157: school anniversary
独立站运营中如何提升客户留存率?客户细分很重要!