当前位置:网站首页>数据处理基本流程

数据处理基本流程

2022-06-09 20:13:00 iT小.新

处理流程
    数据抽取
        抽取mysql中的数据到hive仓库ods层
            静态分区
            动态分区
            全量数据
            增量数据
        数据分区
            根据数据抽取的日期分区
            根据业务日期进行分区
    数据清洗
    数据分析
    实时数据处理
    大数据可视化
    
抽取流程
    创建hive数据表
编写spark程序
        创建spark项目
            创建一个scala项目 基于maven原形
            修改依赖版本号
            修改build插件
            添加spark依赖
                spark-core
                spark-sql
                mysql-connctor- 
            创建sparkSession
            连接到mysql指定customer表 得到一个DF
            把数据抽取到hive二中
                1.可以创建临时表
                执行HQL进行插入操作
                2.直接使用API写入到hive里
        连接到hive
            spark-submit --master local[] --class 类名 jar包地址
        读取mysql数据
        执行插入语句 将数据插入到hive表中 

原网站

版权声明
本文为[iT小.新]所创,转载请带上原文链接,感谢
https://blog.csdn.net/m0_60600640/article/details/125155689