当前位置:网站首页>query词权重, 搜索词权重计算
query词权重, 搜索词权重计算
2022-07-29 15:58:00 【人工智能曾小健】
query词权重(term weighting)是为了计算query分词后,每个term的重要程度。常用的指标是tf*idf(query中term的tf大部分为1),即一个term的出现次数越多,表明信息量越少,相反一个term的次数越少,表明信息量越多。但是term的重要程度并不是和term的出现次数呈严格单调关系,并且idf缺乏上下文语境的考虑(比如“windows”在“windows应用软件”中比较重要,而在“windows xp系统iphone xs导照片”的重要性就比较低)。词权重计算作为一种基础资源在文本相关性,丢词等任务中有着重要作用,其优化方法主要分为下面三类:
1)基于语料统计
2)基于点击日志
3)基于有监督学习
本文首先介绍一些基于语料统计的计算方法。
一、imp(importance的缩写)
idf的一个缺点是仅仅依靠词频比较,imp从在query中的重要性占比基础上,采用迭代的计算方式优化词的静态赋权,其计算过程如下:
其中BT为term的imp值,初始值可设为1,Tmp_i是query中的第i个term的重要性占比,N指所有包含第i个term的query数目。
二、DIMP(Dynamic imp)
idf和imp的一个共同缺点是其都是静态的赋权。DIMP根据query的上下文计算每个term的动态赋权,其主要假设是任意query中的词权重可以由相关query 的词权重来计算,计算过程可分为两部分:
1) 自顶向下的query树构建
根据实际场景中采用不同的构建方法,这里介绍一种在搜索中的做法。如下图,给定query作为根节点,首先获取query的相关query作为第二层节点,在第二层的基础上,枚举相关query的子query作为第三层节点,最后一层为分词后的term节点。因此query树种的节点都是不同粒度的文本串,边都是文本串间的相关关系。在拍卖词推荐任务中,用户query都是比较短的关键词,其可以通过拍卖词间的共同购买关系构建对应的query树。
边栏推荐
- 6月阿里遭拒,90天深造357页微服务手册,获京东offer
- 参加Ultimate Harvest Moon活动,立即赢取终极版月光女神NFT
- CRM如何帮助企业营销获客
- 中小型金融企业该如何进行灾备建设?
- 微信公众号借助小程序云函数实现支付功能
- 地平线获得舜宇集团战略投资并与舜宇智领签署战略合作协议
- Practice of Weibo Advertising Operation and Maintenance Technology Supporting Ten Billions of Requests
- Go语言结构体Go range怎么使用
- [Server Storage Data Recovery] A data recovery case of a RAID 5 crash caused by the failure of a certain model of Huawei OceanStor storage RAID 5 hard disk and the failure to synchronize data with the
- Rust P2P网络应用实战-1 P2P网络核心概念及Ping程序
猜你喜欢
大规模线上应用TiDB会遇到的坑,本文都帮你排除好了
Contribution and writing required documents - OpenHarmony developer documentation style guide
风格迁移篇----艺术风格转换的内容与风格解构
生产者消费代码
ByteArrayOutputStream 类源码分析
双非渣渣的上岸之路!备战 60 天,三战滴滴侥幸收获 Offer
SQL 开始日期、结束日期查询
Easy Genes: Human tRNA loci exhibit DNA hypermethylation associated with aging | Research Article
【微服务】 微服务学习笔记二:Eureka注册中心的介绍及搭建
干货!如何使用仪表构造SRv6-TE性能测试环境
随机推荐
如何在C语言中定义自己的数据类型?
【Go语言刷题篇】Go完结篇函数、结构体、接口、错误入门学习
分布式前修课:MySQL实现分布式锁
我的 2019 年终总结
Dry goods!How to Construct SRv6-TE Performance Test Environment Using Instrumentation
兆易创新2021年将从长鑫存储采购3亿美元DRAM产品
国内EDA领导者芯和半导体完成最新一轮超亿元融资
nacos实现基本的服务跨进程调用和使用OpenFeign进行服务跨进程调用
PL5902 SOT-23-5 高效1MHz2A同步DC-DC降压调节器 百盛电子代理商
联想集团宣布在科创板上市!杨元庆:进一步释放联想的价值!
【小程序项目开发--京东商城】uni-app之自定义搜索组件(上)-- 组件UI
Property (Property Animation Animation), the basic use of Butterknife butter knife
双非渣渣的上岸之路!备战 60 天,三战滴滴侥幸收获 Offer
Turbine聚合监控
(笔记)Build was configured to prefer settings repositories over project repositories but 解决方法
稳步向前不忘初心,沃尔沃的安全感来自公众的认可
金九银十必备 快来看看你还缺啥
Moving forward steadily without forgetting the original intention, Volvo's sense of security comes from the public's recognition
[PCL study notes] Commonly used libraries and APIs for point cloud processing (PCL library Eigen)
Win11 最新补丁更新破坏了任务栏中的“开始”菜单