当前位置:网站首页># ODS及DWD层自动化构建##, 220731,
# ODS及DWD层自动化构建##, 220731,
2022-08-02 02:57:00 【啊六六六】
OracleMetaUtil:根据表名从Oracle中获取这张表的元数据
限定元素类型,,
stored as orc
ODS层建表的时候不用指定列
Avro格式的Schema文件
hdfs放文件,自动映射,,
普通表:表的目录下就是文件
手动将数据同步到HDFS
实现自动化建表:表对应HDFS地址
申明分区
修改partition(dt=),修改hdfs,,
为什么没有数据??怎么添加数据??
为了避免读取整张表的所有数据,只读取这个分区的数据
HiveSQL来生成分区
load xxx into table partition
insert into table partition (dt) select …… dt from table
数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。空值,,重复值,,
class是关键词,,
list[学生对象]
dwd字段提取思路????????
表名
字段名
select
for
元数据对象,,添加对象,
注释,
列表推导式
flatmap
int:整形
float:浮点型
自动化就是1拼接字段,2schma文件格式,,,
难点就是封装类,模块,
读文件可以复用一个工具类,,
指定了分区的值:叫做静态
根据一列的值自动划分:叫做动态
差一列,就注意动态分区和静态分区问题,,,
review,,,,,,
视频注释???
有时间总结一下大致思路,总的+细节难点,,
ods层
获取数据库连接,创建库,
表名列表循环创建表,全量增量表,
拼接SQL,(获取连接,表名),(拼接建表语句,),获取表的注释通过Oracle,通过表名对应存储格式,location中判断分层 全量增量表 表名前缀 表名,
游标执行SQL(.join),
ods映射表流程,申明分区,
说明分区位置,
1msck修复分区,
2alter xxx partition(dt=20210101),循环拼接SQL,alter xxx partition(dt=20210101),修改location修改所在的hdfs地址,
dwd层,
建表,select,for每一行遍历各个列,获取到字段信息,表名,注释,
全量增量表区分,sqoop数据同步不一样,,Oracle数据类型和sparkSQL不一样,
步骤
SparkSQL连接,
拼接建库语句,库名变量,
获取表名,append拼接,
获取Oracle字段,
数据类型,(if判断,timestamp--long,精度为0或1--bigint或decimal,string),pop(-1)删除最后一位,,
dwd的hdfs路径,,
自动化建表,循环表名,拼接SQL,游标执行,
抽取数据,,partition固定值抽取数据要少一个,,
preview
边栏推荐
- CentOS7安装Oracle数据库的全流程
- 22-08-01 西安 尚医通(01)跨域配置、Swagger2、R类、统一异常处理和自定义异常、Logback日志
- PHP WebShell Free Kill
- 【LeetCode】145. Postorder Traversal of Binary Tree
- 有人知道HTML怎么到MYSQL数据库吗? (NODEJS)
- 【LeetCode】104. Maximum depth of binary tree
- MySQL8.0.26 installation and configuration tutorial (windows 64-bit)
- VPS8504C 微功率隔离电源隔离芯片 VPSC源特科技
- 直击程序员面试现场:百度面试官都问了我些啥?
- Common SQL interview questions: 50 classic examples
猜你喜欢
随机推荐
咨询cdc for oracle,增量同步scan.startup.mode只有initial和la
IPFS deployment and file upload (golang)
【每日一道LeetCode】——1. 两数之和
JSP WebSehll 后门脚本
OperatingSystemMXBean获取系统性能指标
【LeetCode】20.有效的括号
微服务:微智能在软件系统的简述
Go语学习笔记 - gorm使用 - 事务操作 Web框架Gin(十一)
Nacos source code analysis topic (1) - environment preparation
1. 获取数据-requests.get()
analog IC layout-Design for reliability
分布式事务解决方案模型
VPS8701 电源管理(PMIC) VPS8701
7-40 奥运排行榜 (25 分)多项排序
mysql8.0.28下载和安装详细教程,适配win11
【LeetCode】145.二叉树的后序遍历
MySQL8 - use under Windows package installation method
Chrome浏览器无法加载已解压的.crx文件的解决办法
leetcode 143. 重排链表
VPS8505 微功率隔离电源隔离芯片 2.3-6V IN /24V/1A 功率管