当前位置:网站首页>推荐系统:特征工程、常用特征
推荐系统:特征工程、常用特征
2022-07-30 00:43:00 【u013250861】
一、特征工程的重要性


- 特征工程可以使得机器学习模型更好的达到效果
推荐系统常用的特征









- 用户行为信息
- 属性、标签信息(不容易获取)
- 用户关系信息
- 内容信息
- 上下文信息
二、原始特征的不足




- 不属于统一量纲
- 信息冗余
- 存在非定量的定性特征
- 存在缺失值
三、特征工程的常见处理方法









- 标准化
- 较适合本身就呈现正态分布的数据(如价格)
- 对异常值不敏感
- 归一化
- 适合本身分布不确定的数据(如哑编码后端分类数据)
- 对异常值较为敏感
- 二值化
- 将定性特征转化为定量特征
- 哑编码
- 将离散属性分类特征转化为0、1向量
- 缺失值补全
- 常用补0、平均值、中位数等方法
四、特征选择



Apache Spark
- 开源的分布式计算框架
- 计算速度快:相对于Hadoop有最多100倍的提升 - 强大的缓存设计:通过简单的接口提供内存+硬盘缓存
- 部署灵活:支持YARN,k8s等集群管理工具 - 实时性高:提供专门针对流计算的工具
- 通用性高:提供多种语言API以及各种业务抽象
- RDD
- Resilient Distributed Dataset
- Resilient: 良好的容错性和错误自动恢复能力
- Distributed:天生的分布式
- Dataset:对用户提供统一的、分布透明的编程接口
行为数据采集
- 用户与产品交互时产生的数据,如点赞、收藏、浏览
- 通常由客户端埋点上传
- 为何使用Kafka处理行为数据? - 解耦:消息生产者和消费者可以互相独立工作
- 拓展性:应对用户量快速扩张可以高效扩容
- 削峰填谷:在活动期间有效保障流量平稳分发
- 异步通信:适合处理行为数据
- Kafka核心概念
- Broker:集群中的服务器
- Topic:消息的逻辑类别
- Partition:topic下的物理存储单元 - Producer\Consumer:消息生产、消费者 - Consumer Group:消费者群组
边栏推荐
- Since the media increase play a short video?From the three aspects
- Worthington用于细胞收获的胰蛋白酶&细胞释放程序
- 会议OA之待开会议&&所有会议
- BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object Detection for Autonomous Drivi
- 557. 反转字符串中的单词 III
- Worthington木瓜蛋白酶&胰凝乳蛋白酶&脱氧核糖核酸酶 I
- 【微服务~Nacos】Nacos之配置中心
- Google Chrome (google) is set to translate Chinese, the translation option does not take effect or the translation option does not pop up
- 3 tips for using hot events to create press releases?A must-see for self-media people
- 测试员容易陷入的9大误区
猜你喜欢

【MySQL系列】MySQL数据库基础

How to increase account weight?3 ways to operate your own media to help you get more revenue

【Incubator DAY18】Interesting exchange【Simulation】【Math】

Based on TNEWS 'today's headline news in Chinese short text classification

Worthington优化技术:细胞定量

新媒体运营必备的4个热点查询网

自学HarmonyOS应用开发(47)- 自定义switch组件

Ubuntu中使用SQLite

定时器学习

经典毕业设计:基于SSM实现高校后勤报修系统
随机推荐
Toutiao We-Media Operation: How to Gain 500+ Fans in Toutiao Today?
【集训DAY16】KC‘s Can 【动态规划】
Mysql internal and external connections
重建二叉树
更换可执行文件glibc版本的某一次挣扎
[Best training DAY16] KC's Can [Dynamic programming]
How Filebeat ensures that the log file is still correctly read when the log file is split (or rolled)
[Flutter] Detailed explanation of the use of the Flutter inspector tool, viewing the Flutter layout, widget tree, debugging interface, etc.
nacos集群配置详解
Navicat报错:1045-Access denied for user [email protected](using passwordYES)
Chinese semantic matching
自媒体短视频怎么提高播放量?从这三个方面入手
STM32——OLED显示实验
Finding a 2D Array
QTableWidget使用示例
3 tips for using hot events to create press releases?A must-see for self-media people
Introduction to Worthington Elastase & Hyaluronidase
会议OA之待开会议&&所有会议
Meetings OA To Be Meeting && All Meetings
Detailed introduction to the usage of Nacos configuration center