当前位置:网站首页>Spark读取多目录
Spark读取多目录
2022-07-29 21:53:00 【南风知我意丿】
项目场景:
上游任务按类型生成json文件存放到hdfs上,会生成很多目录。
下游任务需要读取这些目录下得文件,生成df进行处理。
解决方案:
目录结构:
1.sparkContext
方式一
val session: SparkSession = SparkSession.builder().master("local[*]").appName("read_Muti_catalogue").getOrCreate()
val sc: SparkContext = session.sparkContext
import session.implicits._
//方式一:
sc.textFile("/tmp/lzx/a,/tmp/lzx/b").toDF().show(false)
方式二
val session: SparkSession = SparkSession.builder().master("local[*]").appName("read_Muti_catalogue").getOrCreate()
val sc: SparkContext = session.sparkContext
import session.implicits._
//2.1.方式二:匹配字符
val path1 = "/tmp/lzx/[a]"
val path2 = "/tmp/lzx/[b]"
val arryPath: Array[String] = Array(path1, path2)
val rdds: Array[RDD[String]] = arryPath.map(sc.textFile(_))
sc.union(rdds).toDF().show(false)
//2.2.方式二:匹配数字
val path3 = "/tmp/lzx/*1"
val path4 = "/tmp/lzx/*2"
val arryPath2: Array[String] = Array(path3, path4)
val rdds2: Array[RDD[String]] = arryPath2.map(sc.textFile(_))
sc.union(rdds2).toDF().show(false)
session.close()
2.sparkSession
//3.SparkSession
println("3.SparkSession-----------------------")
val path5 = "/tmp/lzx/*1"
val path6 = "/tmp/lzx/*2"
val arryPath3: Array[String] = Array(path5, path6)
// :_* 作为一个整体,一般可以用于获取一个数组的全部字段
//spark.read.textFile方法返回只有一列value的DataSet表。
val ds: Dataset[String] = session.read.textFile(arryPath3: _*)
ds.show()
//spark.read.text方法返回只有一列value的DataFrame表。
val df: DataFrame = session.read.text(arryPath3: _*)
df.show()
3.通配符使用说明
注意:
每个路径都要定位到最后一级。
路径之间不能存在包含关系。
目录与文件不要混放,即放在同一个目录下。
路径中可使用通配符
参考
https://blog.csdn.net/weixin_40829577/article/details/103847405
边栏推荐
猜你喜欢
随机推荐
C. Color the Picture(贪心/构造)
lambda表达式
百度智能云章淼:详解企业级七层负载均衡开源软件BFE
杨辉三角的各种输出:
Numpy array processing (2)
SQL教程之性能不仅仅是查询
对不起,你很难赚到中年人的钱
SAP MIGO 报错-在例程WERT_SIMULIEREN字段NEUER_PREIS中字段溢出
结合布林线理解现货白银走势图的方法
新库上线 | CnOpenData国际货运代理信息数据
中科院TextMind(文心)安装及使用
给pdf添加已作废标识
NC193 二叉树的前序遍历
HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界
One of the uses of linkedlist: Get the address of the structure variable through the address of the structure member
数字孪生万物可视 | 联接现实世界与数字空间
GBASE 8s 如何通过脚本获取bufwait等统计信息
Official announcement!Suzhou Wujiang Development Zone launches electronic labor contract platform
GBASE 8s 自定义存储过程和函数示例
D. Rain(思维/线性代数/差分数组)