当前位置:网站首页>如何构建准实时数仓?
如何构建准实时数仓?
2022-08-02 17:46:00 【软件测试网】
其中,实时数仓又被细分为两类:一类是标准的实时数仓,所有ETL过程都通过Spark或Flink等实时计算、落地;另一类是简化的实时数仓,甚至是离线数仓的简单升级,这类数仓叫做准实时数仓。
接下来,本文重点梳理准实时数仓应用场景!
简单理解,准实时数仓一定会有延迟,相比一天只统计一次的离线数据仓库,准实时仓库要根据业务需求,按照小时、分钟或者秒来计算。这里,以5分钟为界限,5分钟出一次结果,可以基于Structured Streaming实现准实时数据仓库构建,这是一个基于流式数据基础之上的离线操作,即按照时间切分批次,整体的数据在流式计算引擎上面,也就是在Structured Streaming上面。
实时数仓项目分行业、分领域,以新闻资讯类为例,比如今日头条、一点资讯、腾讯新闻、网易新闻、百度浏览器、360浏览器、新浪、搜狐等。这类应用有哪些数据源?一般包括用户信息、隐私以及和用户收益相关的业务数据;还有用户浏览文章留下的行为日志;用户发布作品产生的内容日志,这些信息首先会收集到Kafka上。
之后的过程是,通过Spark Structured Streaming消费Kafka的原始数据。这里需要强调一点,采用Spark Structured Streaming有三个原因。第一,实现流批统一,可以处理批计算;第二支持file sink,实现端到端的一致性语义;第三,可以控制sink到HDFS的时间,比如:对批次数据设置5分钟节点,延时低,处理速度快。
从sink到HDFS时,可以选择使用Hudi,也可以选择不使用Hudi,如果通过Spark Streaming直接写数据到HDFS时,不可避免地要处理小文件问题,一般有四种处理方式。第一,增大批处理能力,但也会增加延迟;第二分区合并;第三外部程序融入;第四,如果文件没有达到指定大小,下一个批次写数据的时候不创建文件,而是和已存在的小文件合并。这四种方式各有其使用场景,无论采用哪种方式,都会增加工作量。但是,如果通过Hudi写入数据,小文件的问题,Hudi会帮忙解决。
还有一个问题,除了用户行为事件日志不会更新,很多业务数据需要实时更新,比如:用户信息的修改。但是,HDFS本身不支持更新,导致需要修改的数据要经过一个复杂的处理流程,并且在整个过程中,数据的实时性也无法保证,如果使用Hudi,可以在相对较短的延迟下,比如分钟级别,提供数据更新的支持,同时Hudi也支持ACID。
当原始数据落地到HDFS上,可以在落地过程中做一些数据预处理的工作,比如之前在Flume Interceptor中的数据处理工作,之后我们可以通过Hive建立对应的外部表,可以对这些表划分一个层次,叫做ODS层的表,这些表都是最原始数据,也是数仓的第一层。
建立完ODS层的Hive表,就可以根据业务需求查询数据了。至于,我们是不是要构建更上层的数仓层次,要根据业务需求来确定。映射Hive的原始数据层ODS后,就有数据可以分析处理,分析使用的是Presto分析引擎,基于内存的计算框架,计算速度要比Hive和Spark快很多。
使用Presto查询操作完成OLAP分析处理,还会整合Spring Boot框架,使用JDBC连接Presto,提供对外查询接口,供分析人员使用。
边栏推荐
猜你喜欢
随机推荐
KunlunBase 1.0 发布了!
MySQL基本查询和运算符
HDF驱动框架的API(3)
方法的使用
暴跌99.7%后,谁还在买卖「二舅币」?
php弱类型-攻防世界lottery
9月起中国给予多哥等16国98%税目产品零关税待遇
CUDA+Pycharm-gpu版本+Anaconda安装
vulnhub W34kn3ss: 1
故障分析 | 一条 SELECT 语句跑崩了 MySQL ,怎么回事?
golang 源码分析(39)hystrix-go
golang刷leetcode滑动窗口(9) 颜色分类
Simulink脚本自动创建Autosar Parameter Port及Mapping
打补丁的日子,比写代码的日子难熬多了
Since September, China has granted zero-tariff treatment to 98% of tax items from 16 countries including Togo
golang源码分析(33)pollFD
面试官:可以谈谈乐观锁和悲观锁吗
每日优鲜倒了,叮咚买菜的春天在哪?
IDEA相关配置(特别完整)看完此篇就将所有的IDEA的相关配置都配置好了、设置鼠标滚轮修改字体大小、设置鼠标悬浮提示、设置主题、设置窗体及菜单的字体及字体大小、设置编辑区主题、通过插件更换主题
golang刷leetcode 经典(2)拓扑排序