当前位置:网站首页>cdh6.x 集成spark-sql
cdh6.x 集成spark-sql
2022-08-04 01:49:00 【涤生大数据】
写在前面
CDH系列默认阉割掉了Spark的spark-sql工具,但是很多公司还是有这个使用的需要,因为线上就有这块的需求,所以结合cdh6.x版本,做了具体的对spark-sql工具支持的集成。
版本说明
| 组件名称 | 组件版本 |
| CDH | CDH 6.2.1 |
| spark | spark-2.4.8 |
第一步:下载原生apache spark
# cd /opt/cloudera/parcels/CDH/lib
# wget http://archive.apache.org/dist/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
# tar zxvf spark-2.4.8-bin-hadoop2.7.tgz
# ln -s spark2 spark-2.4.8-bin-hadoop2.7
第二步:修改spark配置文件
2.1 配置spark-env.sh
|
2.2 配置spark-defaults.conf
小提示:建议直接cp 现有spark的配置文件,在此基础上修改。
|
Vim /opt/cloudera/parcels/CDH/lib/spark2/conf/spark-defaults.conf
小提示:修改配置文件时,只需要修改文件中标红部分即可,其他可以保持默认。
|
2.3 配置日志级别
# vim /opt/cloudera/parcels/CDH/lib/spark2/conf/log4j.properties
在配置文件中追加以下配置项,其他保持默认
|
第三步:配置依赖包
3.1 上传spark 依赖jar包
|
3.2 配置lzo jar包
|
第四步:配置spark-sql 的全局变量
vim /etc/profile.d/spark.sh
|
#生效
|
第五步:测试使用
全局的任意位置执行 spark-sql指令(注意:执行的linux用户需要有提交任务到yarn的权限)
如果都没有问题,执行show databases ;会看到集群中的所有库。

补充说明:其他客户端如果需要此环境,将上述配置全部scp过去即可。
边栏推荐
猜你喜欢

Installation and configuration of nodejs+npm

Kubernetes:(十一)KubeSphere的介绍和安装(华丽的篇章)

Slipper —— 虚点,最短路

2022年上半年各大厂Android面试题整理及答案解析(持续更新中......)

实例041:类的方法与变量

Flink jdbc connector 源码改造sink之 clickhouse多节点轮询写与性能分析

Security First: Tools You Need to Know to Implement DevSecOps Best Practices

idea中diagram使用

【store商城项目01】环境准备以及测试

Flask框架初学-05-命令管理Manager及数据库的使用
随机推荐
Summary of GNSS Articles
Sticker Spelling - Memory Search / Shape Pressure DP
C程序编译和预定义详解
观察者模式
简单排序(暑假每日一题 14)
Engineering drawing review questions (with answers)
Kubernetes:(九)coredns(浪不动了)
ASP.NET 获取数据库的数据并写入到excel表格中
简单的线性表的顺序表示实现,以及线性表的链式表示和实现、带头节点的单向链表,C语言简单实现一些基本功能
halcon自定义函数基本操作
DDTL: Domain Transfer Learning at a Distance
Android interview questions and answer analysis of major factories in the first half of 2022 (continuously updated...)
Observability:你所需要知道的关于 Syslog 的一些知识
实例035:设置输出颜色
html select标签赋值数据库查询结果
FileNotFoundException: This file can not be opened as a file descriptor; it is probably compressed
C语言力扣第54题之螺旋矩阵。模拟旋转
nodejs installation and environment configuration
实例040:逆序列表
sql有关问题,小时粒度,找到前一个小时内的数据