当前位置:网站首页>spark中RDD与DF的关系

spark中RDD与DF的关系

2022-08-02 14:05:00 boyzwz

 1、spark中的模块       

        Spark中的模块显示了Spark的模块及各模块之间的关系。底层是Spark-core核心模块,Spark每个模块都有一个核心抽象,Spark-core的核心抽象是RDD,Spark SQL等都基于RDD封装了自己的抽象,在Spark SQL中是DataFrame/DataSet对象。相对来说RDD是更偏底层的抽象,DataFrame/DataSet是在其上做了一层封装,做了优化,使用起来更加方便。从功能上来说,DataFrame/DataSet能做的事情RDD都能做,RDD能做的事情DataFrame/DataSet不一定能做。

2、DataFrame

       与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、array和map)。从API易用性的角度上看,DataFrame API提供的是一套高层的关系操作,比函数式的RDD API要更加友好,门槛更低。由于与R和Pandas的DataFrame类似,Spark DataFrame很好地继承了传统单机数据分析的开发体验。

 

3、RDD与DF的区别

        DataFrame与RDD的主要区别在于DataFrame带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。使得Spark SQL得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的性能优化,最终达到大幅提升运行时效率的目标。

RDD,由于无从得知所存数据元素的具体内部结构,Spark Core只能在stage层面进行简单、通用的流水线优化。DataFrame底层是以RDD为基础的分布式数据集,和RDD的主要区别的是:RDD中没有schema信息,而DataFrame中数据每一行(Row)都包含schema

DataFrame = RDD[Row] + shcema

4、RDD与DF的转换

package com.shujia.spark.sql

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SparkSession}

object Demo3DFAndRDD {
  def main(args: Array[String]): Unit = {
    /**
     * spark sql 的入口
     */
    val spark: SparkSession = SparkSession
      .builder()
      .master("local")
      .appName("spark")
      .getOrCreate()

    //通过spark获取spark上下文对象,写代码入口
    val sc: SparkContext = spark.sparkContext
    val linesRDD: RDD[String] = sc.textFile("data/students.txt")
    val stuRDD: RDD[(String, String)] = linesRDD.map(lines => {
      val strings: Array[String] = lines.split(",")
      (strings(0), strings(1))
    })

    //导入隐式转换
    import spark.implicits._

    //RDD 2 DF
    val stuDF: DataFrame = stuRDD.toDF("id", "name")
    stuDF.show()

    //DF 2 RDD
    val rowRDD: RDD[Row] = stuDF.rdd
    val reRDD: RDD[(String, String)] = rowRDD.map(row => {
      //根据列名获取数据
      val id: String = row.getAs("id")
      val name: String = row.getAs("name")
      (id, name)
    })
    reRDD.foreach(println)

  }

}
原网站

版权声明
本文为[boyzwz]所创,转载请带上原文链接,感谢
https://blog.csdn.net/zwyoozwz/article/details/125860126