当前位置:网站首页>【無標題】

【無標題】

2022-06-26 10:12:00 半_調_子

第一:下載所有hadoop二進制包

第二:下載spark 包

第三:下載java

第四:下載anancode

# 創建虛擬環境 pyspark, 基於Python 3.8
conda create -n pyspark python=3.8

# 切換到虛擬環境內
conda activate pyspark

# 在虛擬環境內安裝包
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple 

通過pycharm寫代碼:

# coding:utf8
from pyspark import SparkConf, SparkContext
import os
os.environ['JAVA_HOME'] = r"C:\Java\jdk1.8.0_201"
os.environ['SPARK_HOME'] = r"D:\spark-3.1.2-bin-hadoop2.7"
os.environ['PYSPARK_PYTHON'] = r"D:\anaconda3\envs\pyspark\python.exe"
os.environ['HADOOP_HOME']=r"D:\hadoop-2.7.7"
if __name__ == '__main__':
    conf = SparkConf().setAppName("helloword")
    # 通過SparkConf對象構建SparkContext對象
    sc = SparkContext(conf=conf)

 
    file_rdd = sc.textFile("./myfile.text")

 
    words_rdd = file_rdd.flatMap(lambda line: line.split(" "))

    # 將單詞轉換為元組對象, key是單詞, value是數字1
    words_with_one_rdd = words_rdd.map(lambda x: (x, 1))

    # 將元組的value 按照key來分組, 對所有的value執行聚合操作(相加)
    result_rdd = words_with_one_rdd.reduceByKey(lambda a, b: a + b)

    # 通過collect方法收集RDD的數據打印輸出結果
    print(result_rdd.collect())

原网站

版权声明
本文为[半_調_子]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/177/202206260928215740.html