当前位置:网站首页>spark:商品热门品类TOP10统计(案例)
spark:商品热门品类TOP10统计(案例)
2022-08-02 08:28:00 【一个人的牛牛】
目录
介绍
品类是指产品的分类,大型电商网站品类分多级,一般为三级分类,此次项目中品类只有一级。
不同的公司对热门的定义不一样。此次按照每个品类的 点击---->下单---->支付 的量来统计热门品类。先按照点击数排名,数量决定排名;点击数相同,比较下单数;下单数相同,比较支付数。
数据准备
点击链接下载数据(免费下载)
14万条用户行为数据,搜索、点击、下单、支付-spark文档类资源-CSDN下载
数据说明:
时间_用户ID_sessionID_页面ID_动作时间_搜索_点击(品类ID、产品ID)_下单(品类ID、产品ID)_支付(品类ID、产品ID)_城市ID
代码实现
分别统计每个品类点击的次数,下单的次数和支付的次数:
(品类,点击总数)(品类,下单总数)(品类,支付总数)
import org.apache.spark.{SparkConf, SparkContext} object TopOne { def main(args: Array[String]): Unit = { //TODO 创建环境 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("TOP") val sc = new SparkContext(sparkConf) //TODO TOP热门商品 //读取日志文件 val rdd = sc.textFile("datas/action.txt") rdd.cache() //统计品类点击数量 //数据清洗 val clickRDD = rdd.filter( action => { val datas = action.split("_") datas(6) != "-1" } ) //提取点击品类和数量并统计数量 val clickCountRDD = clickRDD.map( action => { val datas = action.split("_") //(品类,数量) (datas(6),1) } ).reduceByKey(_+_) // println(">>>>>>>>>") // clickCountRDD.collect().foreach(println) //统计品类下单数量 //数据清洗 val orderRDD = rdd.filter( action => { val datas = action.split("_") datas(8) != "null" } ) //提取下单品类和数量并统计数量 val ordercountRDD = orderRDD.flatMap( action => { val datas = action.split("_") val cid = datas(8) //(品类,数量) val cids = cid.split(",") cids.map(id => (id, 1)) } ).reduceByKey(_ + _) // println(">>>>>>>>") // ordercountRDD.collect().foreach(println) //统计品类支付数量 //清洗数据 val payRDD = rdd.filter( action => { val datas = action.split("_") datas(10) != "null" } ) //提取支付品类和数量并统计数量 val paycountRDD = payRDD.flatMap( action => { val datas = action.split("_") val cid = datas(10) //(品类,数量) val cids = cid.split(",") cids.map(id => (id, 1)) } ).reduceByKey(_ + _) // println(">>>>>>>>>>>>") // paycountRDD.collect().foreach(println) //排序————排序顺序:先点击-->再下单-->后支付 val cogroupRDD = clickCountRDD.cogroup(ordercountRDD, paycountRDD) val cogroupRDD2 = cogroupRDD.mapValues { case (clickIter, orderIter, payIter) => { var clickCnt = 0 val iter1 = clickIter.iterator if (iter1.hasNext) { clickCnt = iter1.next() } var orderCnt = 0 val iter2 = orderIter.iterator if (iter2.hasNext) { orderCnt = iter2.next() } var payCnt = 0 val iter3 = payIter.iterator if (iter3.hasNext) { payCnt = iter3.next() } (clickCnt, orderCnt, payCnt) } } val resultRDD = cogroupRDD2.sortBy(_._2, false).take(10) //打印 resultRDD.foreach(println) //TODO 关闭环境 sc.stop() } }
本文为学习笔记记录!
边栏推荐
猜你喜欢
随机推荐
JSP页面中page指令有哪些属性及方法可使用呢?
Mysql Mac版下载安装教程
商业智能平台BI 商业智能分析平台 如何选择合适的商业智能平台BI
Docker内MySQL主从复制学习,以及遇到的一些问题
Hikari连接池源码解读
文章解读 -- FlowNet3D:Learning Scene Flow in 3D Point Clouds
【论文阅读】Distilling the Knowledge in a Neural Network
Button to control the running water light (timer)
PostgreSQL学习总结(11)—— PostgreSQL 常用的高可用集群方案
TiFlash 存储层概览
Biotin - LC - Hydrazide | CAS: 109276-34-8 | Biotin - LC - Hydrazide
UVM信息服务机制
Biotin hydrazide HCl|CAS:66640-86-6|Biotin-hydrazide hydrochloride
PyCharm使用教程(详细版 - 图文结合)
Ansible 学习总结(11)—— task 并行执行之 forks 与 serial 参数详解
pnpm:简介
[ansible] playbook explains the execution steps in combination with the project
What is the function of page directive contentPage/pageEncoding in JSP page?
JSP中page指令的import命令具有什么功能呢?
C语言_条件编译