当前位置:网站首页>Week 6 Learning Representation: Word Embedding (symbolic →numeric)
Week 6 Learning Representation: Word Embedding (symbolic →numeric)
2022-07-26 05:05:00 【金州饿霸】
一、机器学习和深度学习中的学习表示
1、RNN知识回顾


2、传统特征提取和现代的特征提取对比



二、词嵌入(Word embedding)
1、Word embedding定义
- Embedding是数学领域的有名词,是指某个对象 X 被嵌入到另外一个对象 Y 中,映射 f : X → Y ,例如有理数嵌入实数。
- Word embedding 是NLP中一组语言模型(language modeling)和特征学习技术(feature learning techniques)的总称,这些技术会把词汇表中的单词或者短语(words or phrases)映射成由实数构成的向量上。
- Word embedding就是要从数据中自动学习 输入空间到Distributed representation空间的映射f。
- 最简单的一种Word Embedding方法,就是基于词袋(BOW)的One-Hot表示,还有另外一个方法:共现矩阵 (Cocurrence matrix)。
这个过程称为word embedding(词嵌入),即将高维词向量嵌入到一个低维空间。如图:

2、独热(One hot representation)
2.1 定义
独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图:

我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。feature_2 和feature_3各有4种取值(状态)。one-hot编码就是保证每个样本中的单个特征只有1位处于状态1,其他的都是0。上述状态用one-hot编码如下图所示:

考虑一下三个特征:
- ["male", "female"]
- ["from Europe", "from US", "from Asia"]
- ["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]
将它换成独热编码后,应该是:
- feature1=[01,10]
- feature2=[001,010,100]
- feature3=[0001,0010,0100,1000]
1.2.2 优缺点分析
优点:
- 一是解决了分类器不好处理离散数据的问题,
- 二是在一定程度上也起到了扩充特征的作用。
缺点:
- 在文本特征表示上有些缺点就非常突出了。
- 首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息也是很重要的);
- 其次,它假设词与词相互独立(在大多数情况下,词与词是相互影响的);
- 最后,它得到的特征是离散稀疏的
三、 Word2vec
1、 Word2vec定义
word2vec模型其实就是简单化的神经网络。word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度,其中的tricks包括Hierarchical softmax,negative sampling,Huffman Tree等。
在NLP中,最细粒度的对象是词语。如果我们要进行词性标注,用一般的思路,我们可以有一系列的样本数据(x,y)。其中x表示词语,y表示词性。而我们要做的,就是找到一个x -> y的映射关系,传统的方法包括Bayes,SVM等算法。但是我们的数学模型,一般都是数值型的输入。但是NLP中的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入( word embedding) 的一种。

输入是One-Hot Vector,Hidden Layer没有激活函数,也就是线性的单元。Output Layer维度跟Input Layer的维度一样,用的是Softmax回归。当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵。这个模型是如何定义数据的输入和输出呢?一般分为CBOW(Continuous Bag-of-Words)与Skip-Gram两种模型。
- CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量, CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
- Skip-Gram模型和CBOW的思路是反着来的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量。
Word2Vec模型实际上分为了两个部分,第一部分为建立模型,第二部分是通过模型获取嵌入词向量。Word2Vec的整个建模过程实际上与自编码器(auto-encoder)的思想很相似,即先基于训练数据构建一个神经网络,当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。
上面提到的这种方法实际上会在无监督特征学习(unsupervised feature learning)中见到,最常见的就是自编码器(auto-encoder):通过在隐层将输入进行编码压缩,继而在输出层将数据解码恢复初始状态,训练完成后,我们会将输出层“砍掉”,仅保留隐层。
2、Continuous bag of words (CBOW)
2、Skip-gram
3、Negative sampling
三、Something to vector
1、Node2Vect
2、Doc2Vect
边栏推荐
猜你喜欢

JVM Lecture 5: how to deal with peak push of vertical and horizontal data

pillow的原因ImportError: cannot import name ‘PILLOW_VERSION‘ from ‘PIL‘,如何安装pillow<7.0.0

C language -- string function, memory function collection and Simulation Implementation

Redis过期删除策略和内存淘汰策略

汉字风格迁移篇---通过生成对抗网络学习一对多程式化汉字的转换和生成

【ACWing】1268. 简单题
![[mathematical modeling] analytic hierarchy process (AHP)](/img/20/8ebd951a0e0c46d1967c6c8b078a4a.png)
[mathematical modeling] analytic hierarchy process (AHP)

What points should be paid attention to in the selection of project management system?

阿里三面:MQ 消息丢失、重复、积压问题,如何解决?

minipcie接口CAN卡解决工控机扩展CAN通道的难题 minipcie CAN
随机推荐
[weekly translation go] how to write your first program with go
面试之请详细说下synchronized的实现原理以及相关的锁
【ACWing】2983. 玩具
[mathematical modeling] basic knowledge of MATLAB
Date and time function of MySQL function summary
阿里云工业视觉智能工程师ACP认证——备考
AXI协议(4):AXI通道上的信号
Five simple and practical daily development functions of chrome are explained in detail. Unlock quickly to improve your efficiency!
未来大气污染变化模拟
基于遥感解译与GIS技术环境影响评价图件制作
阿里三面:MQ 消息丢失、重复、积压问题,如何解决?
CMD操作命令
Google Emoji guessing game helps parents guide their children to surf the Internet safely
Icml2022 | imitation learning by evaluating the professional knowledge of the presenter
公交站间的距离 : 简单模拟题
The pit of history can only be filled up as far as possible
Annotation @autowired how to assemble automatically
List转换为tree-项目真实使用
普林斯顿微积分读本02第一章--函数的复合、奇偶函数、函数图像
[wp][gwctf 2019] boring lottery