当前位置:网站首页>对word2vec的一些浅层理解
对word2vec的一些浅层理解
2022-07-07 08:14:00 【strawberry47】
最近有朋友问到word2vec是怎么一回事,于是我又复习了一遍相关知识,记录下自己的一些思考,防止遗忘~
word2vec是获取词向量的手段,它是在NNLM基础上改进的。
训练模型本质上是只具有一个隐含层的神经元网络。
它有两种形式 ① skip-gram:从两边预测中间 ② C-BOW:从中间预测两边;
注意,这两种形式只是代表两种不同的训练方式,最终都是取输入层->隐藏层的权重,作为词向量。
训练时,以CBOW为例,假设语料库是“今天的天气真好”;模型的输入是 "今 天 的 天 真 好"六个单词的one-hot vector,输出是一堆概率,我们希望“气”出现的概率最大。
写代码的时候,通常是调用gensim库,传入语料库就可以训练出词向量了。
一些训练时的小trick:Negative Sampling,哈夫曼树
参考:[NLP] 秒懂词向量Word2vec的本质,总结word2vec(实验室师兄写的博客)
边栏推荐
猜你喜欢
JMeter about setting thread group and time
Es classes and objects, prototypes
Vs code specifies the extension installation location
HAL库配置通用定时器TIM触发ADC采样,然后DMA搬运到内存空间。
STM32 ADC和DMA
LeetCode 练习——113. 路径总和 II
PDF文档签名指南
0x0fa23729 (vcruntime140d.dll) (in classes and objects - encapsulation.Exe) exception thrown (resolved)
Deconvolution popular detailed analysis and nn Convtranspose2d important parameter interpretation
Wallys/IPQ6010 (IPQ6018 FAMILY) EMBEDDED BOARD WITH ON-BOARD WIFI DUAL BAND DUAL CONCURRENT
随机推荐
Embedded background - chip
CONDA creates virtual environment offline
Serial communication relay Modbus communication host computer debugging software tool project development case
Study summary of postgraduate entrance examination in October
STM32 product introduction
ORM -- grouping query, aggregation query, query set queryset object properties
【acwing】789. Range of numbers (binary basis)
Some thoughts on the testing work in the process of R & D
Appx代碼簽名指南
IPv4套接字地址结构
STM32产品介绍
[second on] [jeecgboot] modify paging parameters
A wave of open source notebooks is coming
【华为机试真题详解】高矮个子排队
C#记录日志方法
Postman interface test I
Wallys/IPQ6010 (IPQ6018 FAMILY) EMBEDDED BOARD WITH ON-BOARD WIFI DUAL BAND DUAL CONCURRENT
LLVM之父Chris Lattner:為什麼我們要重建AI基礎設施軟件
【HigherHRNet】 HigherHRNet 详解之 HigherHRNet的热图回归代码
Weekly recommended short videos: what are the functions of L2 that we often use in daily life?