当前位置:网站首页># DWD层及DIM层构建## ,220801 ,
# DWD层及DIM层构建## ,220801 ,
2022-08-02 22:29:00 【啊六六六】
orc节省90%空间,,
自己写代码,不要复用代码,ods一套dwd一套,,
简历只描述ods层(orc格式)自动化建表,,,
dwd一般需要数据清洗,,
avro数据类型只要string,bigint,没有注释,,
如果一个项目主题特别多,将主题进行分类
将不同主题划分到不同的主题域
ods_usr_visit_1d
表名:分层_主题域_业务名称_时间粒度
简历写一两个主题,,非常熟悉,,
需求决定
减少join?
rank过滤减少数据量,,,
两种性能一样,,
PPD:谓词下推(hive,SparkSQL支持)
思想:将过滤条件提前
过滤提前,,
sparkSQL从下往上看,stage,hive反着看,,
Hive/Spark:谓词下推 SQL层面优化,
先把不需要数据提前过滤掉,再做Join、分组聚合
尽量手动谓词下推,,容易摸鱼,,
为啥spark看不到库名呀 忘记了 记得提过 兼容性问题,,
后面没有过滤条件,,,
规范:尽量避免同层调用
笛卡尔积
1-显示申明:cross join
2-开启参数:其他join的时候不给关联条件
cross join ==后两表先join,,
SQL只能repartition,,
实际操作,先抽取好表字段,再建表,,,
floor
连上3天 , 2天面试加强,
review,,
今年会把下一年的每一天对应的时间维度的信息放入对应的年分区中(需要文件时,找老师要)
报错明天问老师??
查询没有问题,插入数据表就报这个错误,,
查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,
,
--派工单状态名称 select dictid,dictname from one_make_dwd.eos_dict_entry where dicttypeid = 'BUSS_WORKORDER_STATUS';
--来电类型名称 select dictid,dictname from one_make_dwd.eos_dict_entry where dicttypeid = 'BUSS_CALL_TYPE';
报错明天问老师??
查询没有问题,插入数据表就报这个错误,,
查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,
边栏推荐
猜你喜欢
随机推荐
gdb调试简要总结
1 - vector R language self-study
centos7安装mysql5.7步骤(图解版)
学习Autodock分子对接
PHP实现登录失败三次需要输入验证码需求
mysql根据多字段分组——group by带两个或多个参数
MYSQL查看表结构
万物智联时代,悄然走入生活
基于奇异谱分析法和长短时记忆网络组合模型的滑坡位移预测
The only way to go from a monthly salary of 10k to 30k: automated testing
从月薪10k到30k的必走之路:自动化测试
centos7安装mysql8
总数据量超万亿行,玉溪卷烟厂通过正确选择时序数据库轻松应对
mysql查询表中重复记录
go rand 包
Towards a General Purpose CNN for Long Range Dependencies in ND
resubmit 渐进式防重复提交框架简介
Tanabata is here - the romance of programmers
Strict feedback nonlinear systems based on event trigger preset since the immunity of finite time tracking control
同样月薪6K,为什么同事跳槽月薪翻倍,而你只涨了1000?