当前位置:网站首页>推荐系统:特征工程、常用特征
推荐系统:特征工程、常用特征
2022-07-30 00:43:00 【u013250861】
一、特征工程的重要性


- 特征工程可以使得机器学习模型更好的达到效果
推荐系统常用的特征









- 用户行为信息
- 属性、标签信息(不容易获取)
- 用户关系信息
- 内容信息
- 上下文信息
二、原始特征的不足




- 不属于统一量纲
- 信息冗余
- 存在非定量的定性特征
- 存在缺失值
三、特征工程的常见处理方法









- 标准化
- 较适合本身就呈现正态分布的数据(如价格)
- 对异常值不敏感
- 归一化
- 适合本身分布不确定的数据(如哑编码后端分类数据)
- 对异常值较为敏感
- 二值化
- 将定性特征转化为定量特征
- 哑编码
- 将离散属性分类特征转化为0、1向量
- 缺失值补全
- 常用补0、平均值、中位数等方法
四、特征选择



Apache Spark
- 开源的分布式计算框架
- 计算速度快:相对于Hadoop有最多100倍的提升 - 强大的缓存设计:通过简单的接口提供内存+硬盘缓存
- 部署灵活:支持YARN,k8s等集群管理工具 - 实时性高:提供专门针对流计算的工具
- 通用性高:提供多种语言API以及各种业务抽象
- RDD
- Resilient Distributed Dataset
- Resilient: 良好的容错性和错误自动恢复能力
- Distributed:天生的分布式
- Dataset:对用户提供统一的、分布透明的编程接口
行为数据采集
- 用户与产品交互时产生的数据,如点赞、收藏、浏览
- 通常由客户端埋点上传
- 为何使用Kafka处理行为数据? - 解耦:消息生产者和消费者可以互相独立工作
- 拓展性:应对用户量快速扩张可以高效扩容
- 削峰填谷:在活动期间有效保障流量平稳分发
- 异步通信:适合处理行为数据
- Kafka核心概念
- Broker:集群中的服务器
- Topic:消息的逻辑类别
- Partition:topic下的物理存储单元 - Producer\Consumer:消息生产、消费者 - Consumer Group:消费者群组
边栏推荐
- 某团实习面经
- The range of motion of the robot
- 【经验】经验总结-经验教训
- 【Flutter】混合开发之Flutter预加载解决第一次加载页面缓慢问题
- 重新定义分析 - EventBridge 实时事件分析平台发布
- How do we-media people create explosive articles?These 3 types of articles are most likely to explode
- 旋转数组的最小数字
- 1592. 重新排列单词间的空格
- 【集训DAY16】KC‘s Can 【动态规划】
- MySql的初识感悟,以及sql语句中的DDL和DML和DQL的基本语法
猜你喜欢

vmtouch——Linux下的文件缓存管理神器

测试员容易陷入的9大误区

Baidu Intelligent Cloud Zhangmiao: Detailed explanation of enterprise-level seven-layer load balancing open source software BFE

转发和重定向的区别及使用场景

Worthington解离酶:胰蛋白酶及常见问题

Worthington用于细胞收获的胰蛋白酶&细胞释放程序

Worthington酶促细胞收获&细胞粘附和收获

Worthington经过使用测试的细胞分离系统方案

重新定义分析 - EventBridge 实时事件分析平台发布

消息中间件解析 | 如何正确理解软件应用系统中关于系统通信的那些事?
随机推荐
“灯塔工厂”的中国路径:智造从点到面铺开
Replace the executable file glibc version of the one
Toutiao We-Media Operation: How to Gain 500+ Fans in Toutiao Today?
2022年ps应该选择哪个版本
7.28
ZLMediaKit源码分析 - WebRtc连接迁移
验证框架-01
nacos集群配置详解
X64 mfc140u.dll文件缺失->应用程序无法正常启动(0xc000007b)解决方法
【MySQL系列】MySQL数据库基础
Navicat如何连接MySQL
百度智能云章淼:详解企业级七层负载均衡开源软件BFE
Baidu Intelligent Cloud Zhangmiao: Detailed explanation of enterprise-level seven-layer load balancing open source software BFE
Types and check set (set), study T treasure code
[Experience] Experience Summary - Lessons Learned
新闻文本分类
Recurrent Neural Network (RNN)
Missing X64 mfc140u. DLL file - > application cannot normal boot (0 xc000007b) solution
【集训DAY16】ALFA【凸壳】【计算几何】
I.MX6U-驱动开发-3-新字符驱动