当前位置：网站首页>Week 6 Learning Representation: Word Embedding (symbolic →numeric)

Week 6 Learning Representation: Word Embedding (symbolic →numeric)

2022-07-26 05:05:00 【金州饿霸】

一、机器学习和深度学习中的学习表示

1、RNN知识回顾

2、传统特征提取和现代的特征提取对比

二、词嵌入（Word embedding）

1、Word embedding定义

Embedding是数学领域的有名词，是指某个对象 X 被嵌入到另外一个对象 Y 中，映射 f : X → Y ，例如有理数嵌入实数。
Word embedding 是NLP中一组语言模型（language modeling）和特征学习技术（feature learning techniques）的总称，这些技术会把词汇表中的单词或者短语（words or phrases）映射成由实数构成的向量上。
Word embedding就是要从数据中自动学习输入空间到Distributed representation空间的映射f。
最简单的一种Word Embedding方法，就是基于词袋（BOW）的One-Hot表示，还有另外一个方法：共现矩阵 (Cocurrence matrix)。

这个过程称为word embedding（词嵌入），即将高维词向量嵌入到一个低维空间。如图：

2、独热（One hot representation）

2.1 定义

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。举个例子，假设我们有四个样本（行），每个样本有三个特征（列），如图：

我们的feature_1有两种可能的取值，比如是男/女，这里男用1表示，女用2表示。feature_2 和feature_3各有4种取值（状态）。one-hot编码就是保证每个样本中的单个特征只有1位处于状态1，其他的都是0。上述状态用one-hot编码如下图所示：

考虑一下三个特征：

["male", "female"]
["from Europe", "from US", "from Asia"]
["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

将它换成独热编码后，应该是：

feature1=[01,10]
feature2=[001,010,100]
feature3=[0001,0010,0100,1000]

1.2.2 优缺点分析

优点：

一是解决了分类器不好处理离散数据的问题，
二是在一定程度上也起到了扩充特征的作用。

缺点：

在文本特征表示上有些缺点就非常突出了。
首先，它是一个词袋模型，不考虑词与词之间的顺序（文本中词的顺序信息也是很重要的）；
其次，它假设词与词相互独立（在大多数情况下，词与词是相互影响的）；
最后，它得到的特征是离散稀疏的

三、 Word2vec

1、 Word2vec定义

word2vec模型其实就是简单化的神经网络。word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度，其中的tricks包括Hierarchical softmax，negative sampling，Huffman Tree等。

在NLP中，最细粒度的对象是词语。如果我们要进行词性标注，用一般的思路，我们可以有一系列的样本数据(x,y)。其中x表示词语，y表示词性。而我们要做的，就是找到一个x -> y的映射关系，传统的方法包括Bayes，SVM等算法。但是我们的数学模型，一般都是数值型的输入。但是NLP中的词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种。

输入是One-Hot Vector，Hidden Layer没有激活函数，也就是线性的单元。Output Layer维度跟Input Layer的维度一样，用的是Softmax回归。当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵。这个模型是如何定义数据的输入和输出呢？一般分为CBOW（Continuous Bag-of-Words）与Skip-Gram两种模型。

CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量, CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。
Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。

Word2Vec模型实际上分为了两个部分，第一部分为建立模型，第二部分是通过模型获取嵌入词向量。Word2Vec的整个建模过程实际上与自编码器（auto-encoder）的思想很相似，即先基于训练数据构建一个神经网络，当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。

上面提到的这种方法实际上会在无监督特征学习（unsupervised feature learning）中见到，最常见的就是自编码器（auto-encoder）：通过在隐层将输入进行编码压缩，继而在输出层将数据解码恢复初始状态，训练完成后，我们会将输出层“砍掉”，仅保留隐层。