当前位置:网站首页>【快手面试】Word2vect生成的向量,为什么可以计算相似度,相似度有什么意义?
【快手面试】Word2vect生成的向量,为什么可以计算相似度,相似度有什么意义?
2022-08-03 08:51:00 【凝眸伏笔】
背景:
我是推荐算法方向的面试,在面试的时候,使用word2vector的方法生成item的向量,来计算行为序列中的item跟待预估的item的相似度,来作为一维特征。
二面面试官问题:
Word2vect生成的向量,为什么可以计算相似度,相似度有什么意义?
答案分析:
term在相同的前后文中,认为两个term是等价的,它们学到的向量也更接近,所以item的向量计算相似度,表示两个向量的相似程度,也即是是否等价。
原理分析:
什么词算相似,一般可以认为,如果两个词的上下文越相似,这两个词也就越相似。比如牛在吃草,马在吃草,牛和马后面的词都一样。又或者是我家在北京,我家在上海,北京和上海的功能差不多,这两个词也就越相似,个人认为这也就是word2vec的出发点。
word2vec得出的词向量其实就是训练后的一个神经网络的隐层的权重矩阵,在经过CBOW或者Skip-Gram模型的训练之后,词义相近的词语就会获得更为接近的权重,因此可以用向量的距离来衡量词的相似度。
向量相似性,一般地,我们以向量的夹角来评价两个向量的相似性
这样我们就可以发现,如果有两向量u,v,
当u加上s*v时(s是正标量),u和v的夹角变小,因此更相似,
当u减去s*v时(s是正标量),u跟v的夹角变大,因此相似性减弱
边栏推荐
猜你喜欢
二进制日志过期时间设置expire_logs_days
[Kaggle combat] Prediction of the number of survivors of the Titanic (from zero to submission to Kaggle to model saving and restoration)
sqlite date field plus one day
【LeetCode】226. Flip the binary tree
pytorch one-hot 小技巧
IDEA2021.2安装与配置(持续更新)
Using pipreqs export requirements needed for the project. TXT (rather than the whole environment)
HCIP练习02(OSPF)
Batch PNG format can be converted to JPG format
线程介绍与使用
随机推荐
获取JDcookie的方法
Using pipreqs export requirements needed for the project. TXT (rather than the whole environment)
【LeetCode】101.对称二叉树
【LeetCode】101. Symmetric Binary Tree
word之个人设置
【网络安全】Kail操作系统
QImage的指针问题
Mysql的in和exists用法区别
C# 一周入门高级编程之《C#-接口》Day Two
NFT到底有哪些实际用途?
图解Kernel Device Tree(设备树)的使用
多线程下的单例模式
牛客 - 鼠标的天选(字符串哈希)
JMeter接口自动化发包与示例
SQL Daily Practice (Nioke New Question Bank) - Day 5: Advanced Query
English Grammar - Adverbial Clauses
牛客 - 最佳直播时间 (差分)
HCIP练习(OSPF)
【论文笔记】基于动作空间划分的MAXQ自动分层方法
SQL每日一练(牛客新题库)——第5天:高级查询