当前位置:网站首页>Machine Learning (Chapter 1) - Feature Engineering
Machine Learning (Chapter 1) - Feature Engineering
2022-08-03 10:53:00 【Billie studies hard】
目录
为什么需要对数值类型的特征做归一化?
How to handle categorical features?
什么是组合特征?如何处理高维组合特征?
怎样有效的找到组合特征?
有哪些文本表示模型?它们各有什么优缺点?
How to alleviate the problem of insufficient training data in image classification tasks?
Word2Vec是如何工作的?What is the difference and relationship between it and the hidden Dirichlet model?
什么是特征工程?
特征工程就是A series of engineering processes are performed on the raw data,将其提炼为特征,作为输入供算法和模型使用.从本质上来讲,Feature engineering is oneThe process of representing and presenting data.在实际工作中,特征工程旨在Remove journals and redundancy in raw data,Design more efficient featuresTo characterize the relationship between the problem being solved and the predictions of the model.
本章主要讨论两种常用的数据类型
(1)结构化数据.结构化数据类型可以看作关系型数据库的一张表,每列都有清晰的定义,包含了数值型、类别型两种基本类型;每行数据表示information for a sample.
(2)非结构化数据.Unstructured data mainly includes文本、图像、音频、视频数据,the information it containsIt cannot be represented by a simple numerical value,也There is no clear class definition.
一、特征归一化
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性.例如,分析一个人的身高和体重对健康的影响,如果使用米(m)和千克(kg)作为单位,那么身高特征会在1.6~1.8的范围内,体重特征会在50kg~100kg的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征.想要得到更为准确的结果,Feature normalization is required,Make each indicator in the same order of magnitude,以便进行分析.
Normalize features of numeric typesAll features can be unified into roughly the same numerical interval.最常用的方法主要有以下两种.
(1)线性函数归一化(Min-Max Scaling).它对原始数据进行线性变换,使结果映射到[0-1]的范围,实现对原始数据的等比缩放.归一化公式如下:
其中X为原始数据,,分别为数据最大值和最小值.
(2)零均值归一化(Z-Score Normalization).它会将原始数据映射到均值为0、标准差为1的分布上.具体来说,假设原始特征的均值为μ、标准差为σ,那么归一化公式定义为:
为什么需要对数值类型的特征做归一化?
我们不妨借助随机梯度下降的实例来说明归一化的重要性.Suppose there are two numeric types of features,x1的取值范围为[0-10],x2的取值范围为[0-3],于是可以构造一个目标函数符合图1.1(a)中的等值图.
with the same learning rate,x1的更新速度会大于x2,需要较多的迭代才能找到最优解.如果将x1和x2归一化到相同的数值区间后,优化目标的等值图会变成图1.1(b)中的圆形,x1和x2的更新速度变得更为一致,容易更快的通过梯度下降找到最优解.
当然,数据归一化并不是万能的.在实际应用中,Models solved by gradient descent need to be normalized,包括线性回归、逻辑回归、支持向量机、神经网络等模型.但对于决策树并不适用,The number of decisions is mainly based on the data set when splitting nodesD关于特征x的信息增益比,而信息增益比跟特征是否经过归一化是无关的,因为归一化并不会改变样本在特征x上的信息增益.
二、类别型特征
类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征.The raw input for categorical features is usually 字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作.
在对数据进行预处理时,应该How to handle categorical features?
序号编码(Ordinal Encoding)、独热编码(One-hot Encoding)and binary encoding(Binary Encoding).
序号编码:Ordinal encoding is usually used for processingData with a size relationship between categories.例如成绩,可以分为低、Middle and high grades,并且存在“高>中>低”的排序关系.序号编码会按照大小关系对类别型特征赋予一个数值ID,例如高表示为3,中表示为2,低表示为1,转换后依然保留了大小关系.
独热编码:One-hot encoding is often used for processingFeatures that do not have a size relationship between categories.例如血型,一共有4个取值(A、B、AB、O),One-hot encoding will turn blood into one4维稀疏向量,A型表示为(1,0,0,0),B型表示为(0,1,0,0),AB型表示为(0,0,1,0),O型表示为(0,0,0,1).对于类别取值较多的情况下使用独热编码需要注意以下问题.
(1)使用稀疏向量来节省空间.Under one-hot encoding, the feature vector has only one dimension value1,其他位置取值均为0.Therefore, the sparse representation of vectors can be used to save space effectively,并且目前大部分的算法均接受稀疏向量形式的输入.
(2)配合特征选择来降低维度.高维度特征会带来几方面的问题.一般是在K近邻算法中,The distance between two points in high-dimensional space is difficult to measure effectively;二是在逻辑回归模型中,参数的数量会随着维度的增高而增加,容易引起过拟合问题;三是通常只有部分维度是对分类、预测有帮助,因此可以考虑配合特征选择来降低维度.
二进制编码:二进制编码主要分为两步,First assign a category to each category with serial number codingID,然后将类别ID对应的二进制编码作为结果.以A、B、AB、O血型为例,表1.1是二进制编码的过程.A型血的ID为1,二进制表示为001,;B型血的ID为2,二进制表示为010;AB型和Otype empathy.可以看出,二进制编码本质上是利用二进制对ID进行哈希映射,最终得到0/1特征向量,且维数少于独热编码,节省了存储空间.
三、高维组合特征的处理
什么是组合特征?如何处理高维组合特征?
为了提高复杂关系的拟合能力,Often in feature engineeringCombine first-order discrete features in pairs,构成高阶组合特征.
以广告点击预估问题为例,Raw data has two characteristics, language and type.表1.2是The impact of language and type on clicks,For example, improve the fitting ability,语言和类型可以组成二阶特征,表1.3 是The effect of combined features of language and genre on clicks.
表1.2 The impact of language and type on clicks
表1.3 The effect of combined features of language and genre on clicks
以逻辑回归为例,假设数据的特征向量为,则有,
其中表示和的组合特征,的维度等于,和分别代表第i个特征和第j个特征不同取值的个数.在表1.3的广告点击预测问题中,w的维度是2×2=4.This feature combination seems to be no problem,但引入ID类型的特征时,问题就出现了.以推荐问题为例,表1.4是用户ID和物品ID对点击的影响,表1.5是用户ID和物体IDThe combined features of the impact on clicks.
表1.4 用户ID和物品ID对点击的影响
表1.5 用户ID和物体IDThe combined features of the impact on clicks
若用户数量为m、物品数量为n,那么需要学习的参数的规模为m×n.在互联网环境下,用户数量和物品数量都可以达到千万量级,几乎无法学习m×n规模的参数.在这种情况下,A proven method is将用户和物品分别用k维的低维向量表示(k<<m,k<<n),
其中,和分别表示和对应的低维向量.在表1.5的推荐问题中,The scale of the parameters to be learned becomes m×k+n×k.If you are familiar with the recommendation algorithm, you can see it very quickly,这其实等价于矩阵分解.
四、组合特征
The previous section explained how to use itDimensionality reduction method to reduce the parameters that need to be learned after combining two high-dimensional features.但是在很多实际问题中,我们常常需要Facing a variety of high-dimensional features.If it is a simple combination of two or two,依然容易存在参数过多、过拟合等问题,而且Not all feature combinations make sense.因此,需要一种有效的方法来帮助我们找到应该对哪些特征进行组合.
怎样有效的找到组合特征?
This section introduces one based on 决策树feature combination search method.以点击预测问题为例,Assume the original input data contains 年龄、性别、用户类型(试用期、付费)、物品类型(护肤、食品等)4个方面信息,并且根据原始输入和标签(点击/未点击)构造出了决策树,如图1.2所示.
Therefore, each path from the root node to the leaf node can be regarded as a way of feature combination.具体来说,就是以下4种特征组合的方式.
表1.6are two sample messages,那么第一个样本按照上述4A combination of features can be encoded as (1,1,0,0),因为同时满足(1)(2),但不满足(3)(4).同理,第二个样本可以编码为(0,0,1,1),Because it satisfies at the same time(3)(4),但不满足(1)(2).
表1.6 两个不同样本对应的原始输入特征
How to construct a decision tree given the original input?可以采用梯度提升决策树,该方法的思想是Each time the next decision tree is built on the residuals of the previously built decision tree.
五、文本表示模型
Text is a very important class非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向.
有哪些文本表示模型?它们各有什么优缺点?
词袋模型(Bags of Words),TF-IDF(Term Frequency-Inverse Document Frequency),主题模型(Topic Model),词嵌入模型(Word Embedding).
词袋模型和N-gram模型:The most basic text representation modelis the bag of words model.顾名思义,就是Think of each article as a bag of words in the order in which they appear.具体地说,就是Divide a whole paragraph of text into word-by-word units,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而The weight corresponding to this dimension reflects the importance of the word in the original text.常用TF-IDF来计算权重,公式为
其中,TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性,表示为
直观的解释是,如果一个单词在非常多的文章里面都出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩罚.
将文章进行单词级别的划分有时候并不是一种好的做法,比如英文中的natural language processing(自然语言处理)一词,If you split these three words apart,所表达的含义与三个词连续出现时大相径庭.通常,可以将连续出现的n个词(n<=N)组成的词组(N-gram)也作为一个单独的特征放到向量表示中去,构成N-gram模型.另外,同一个词可能有多种词性变化,却具有相似的含义.在实际应用中,Usually on words词干抽取(Word Stemming)处理,即Unify words of different parts of speech into the form of the same stem.
主体模型:The agent model is used to discover representative topics from the text library,And can calculate the topic distribution of each article.
词嵌入与深度学习模型:Word embeddings are one classA general term for models that vectorize words,核心思想是Map each word into a low-dimensional space(通常K=50~300维)上的一个稠密向量.KEach dimension of the dimensional space can also be seen as an implicit subject,只不过不像主题模型中的主题那样直观.
由于词嵌入将每个词映射成一个K维的向量,如果一篇文档有N个词,就可以用一个NxK维的矩阵来表示这篇文档,但是这样的表示过于底层.在实际应用中,如果仅仅把这个矩阵作为原文本的表示特征输入到机器学习模型中,通常很难得到令人满意的结果.因此,It also needs to be based on thisMachining higher level features.在传统的浅层机器学习模型中,一个好的特征工程往往可以带来算法效果的显著提升.而深度学习模型正好为我们提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征.从这个角度来讲,深度学习模型能够打败浅层模型也就顺理成章了.The architecture of convolutional neural networks and recurrent neural networks has achieved good results in text representation,Mainly because of themAbility to model text better,抽取出一些高层的语义特征.与全连接的网络结构相比,卷积神经网络和循环神经网络On the one hand it captures the character of the text well,另一方面又减少了网络中待学习的参数,提高了训练速度,并且降低了过拟合的风险.
六、Word2Vec
谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一.Word2Vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是CBOW(Continues Bag of Words)和Skip-program.
Word2Vec是如何工作的?它和LDA有什么区别与联系?
CBOW的目标是根据上下文出现的词语来预测当前词的生成概率,如图1.3(a)所示;而Skip-gram是根据当前词来预测上下文中各词的生成概率,如图1.3(b)所示.
其中w(t)是当前所关注的词,w(t-2)、w(t-1)、w(t+1)、w(t+2)是上下文中出现的词.这里前后滑动窗口大小均设为2.
CBOW和Skip-gram都可以表示成由输入层(Input) 、映射层(Projection) 和输出层(Output) 组成的神经网络.
输入层中的每个词由独热编码方式表示,即所有词均表示成一个N维向量,其中N为词汇表中单词的总数.在向量中,每个词都将与之对应的维度置为1,其余维度的值均设为0.
在映射层(又称隐含层)中,K个隐含单元(Hidden Units)的取值可以由N维输入向量以及连接输入和隐含单元之间的NxK维权重矩阵计算得到.在CBOW中,还需要将各个输入词所计算出的隐含单元求和.
同理,输出层向量的值可以通过隐含层向量(K维),以及连接隐含层和输出层之间的KxN维权重矩阵计算得到.输出层也是一个N维向量,每维与词汇表中的一个单词相对应.最后,对输出层向量应用Softmax激活函数,可以计算出每个单词的生成概率.Softmax激活函数的定义为其中x代表N维的原始输出向量,xn为在原始输出向量中,与单词wnthe corresponding dimension
值.
接下来的任务就是训练神经网络的权重,使得语料库中所有单词的整体生成概率最大化.从输入层到隐含层需要一个维度为NxK的权重矩阵,从隐含层到输出层又需要一个维度为KxN的权重矩阵,学习权重可以用反向传播算法实现,每次迭代时将权重沿梯度更优的方向进行一小步更新.但是由于Softmax激活函数中存在归一化项的缘故,推导出来的迭代公式需要对词汇表中的所有单词进行遍历,使得每次迭代过程非常缓慢,由此产生了Hierarchical Softmax和Negative Sampling两种改进方法.训练得到维度为NxK和KxN的两个权重矩阵之后,可以选择其中一个作为N个词的K维向量表示.
谈到Word2Vec与LDA的区别和联系,首先,LDA是利用文档中单词的共现关系来对单词按主题聚类,也可以理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布.而Word2Vec其实是对“上下文-单词”矩阵进行学习,其中The context consists of several surrounding words,由此得到的词向量表示更多地融入了上下文共现的特征.也就是说,如果两个单词所对应的Word2Vec向量相似度较高,那么它们很可能经常在同样的上下文中出现.需要说明的是,上述分析的是LDA与Word2Vec的不同,不应该作为主题模型和词嵌入两类方法的主要差异.主题模型通过一定的结构调整可以基于“上下文-单词”矩阵进行主题推理.同样地,词嵌入方法也可以根据“文档-单词”矩阵学习出词的隐含向量表示.主题模型和词嵌入两类方法最大的不同其实在于模型本身,主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式,其中包括需要推测的隐含变量(即主题) ;而词嵌入模型一般表达为神经网络的形式,似然函数定义在网络的输出之上,需要通过学习网络的权重以得到单词的稠密向量表示.
七、图像数据不足时的处理方法
在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
一个模型所能提供的信息一般来源于两个方面,一是information contained in the training data;二是在模型的形成过程中(包括构造、学习、推理等),人们提供的先验信息.当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下要想保证模型的效果,就More a priori information is required.先验信息可以作用在模型上,例如让模型采用特定的内在结构、The condition assumes or adds another one- 些约束条件;先验信息也可以直接施加在数据集上,即根据特定的先验假设去调整、变换或扩展训练数据,让其展现出更多的、更有用的信息,以利于后续模型的训练和学习.
具体到图像分类任务上,The problems caused by insufficient training data are mainly manifested in the following aspects过拟合方面,即模型在训练样本上的效果可能不错,但在测试集上的泛化效果不佳.根据上述讨论,对应的处理方法大致也可以分两类,一 is a model-based approach,主要是采用降低过拟合风险的措施,包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1/L2正则项)、集成学习、Dropout超参数等;二是基于数据的方法,主要通过数据扩充(Data Augmentation) ,即根据一些先验知识,在保持特定信息的前提下,对原始数据进行适当变换以达到扩充数据集的效果.具体到图像分类任务中,在保持图像类别不变的前提下,可以对训练集中的每幅图像进行以下变换.
(1)to a certain extent随机旋转、平移、缩放、裁剪、填充、左右翻转等,这些变换对应着同一个目标在不同角度的观察结果.
(2)Add to the pixels in the image噪声扰动,比如椒盐噪声、高斯白噪声等.
(3)颜色变换.
(4)改变图像的亮度、清晰度、对比度、锐度等.除了直接在图像空间进行变换,还可以First perform feature extraction on the image,然后在图像的特征空间内进行变换,利用一些通用的数据扩充或上采样技术,例如SMOTE (Synthetic Minority Over -sampling Technique)算法.抛开上述这些启发式的变换方法,使用生成模型也可以合成一些新样本,例如当今非常流行的生成式对抗网络模型.
此外,Transfer learning with the help of other models or data you already haveIt is also very common in deep learning.例如,对于大部分图像分类任务,并不需要从头开始训练模型,而是借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调(fine-tune) ,这种微调操作就可以看成是一种简单的迁移学习.
边栏推荐
- 4 g acquisition ModbusTCP turn JSON MQTT cloud platform
- Interview Blitz 71: What's the difference between GET and POST?
- 浪潮—英伟达打造元宇宙新方案,虚拟人的故事将再破你的认知
- How to retrieve IDC research reports?
- Programmers architecture practice way: software architecture basic concepts and thinking
- Who is more popular for hybrid products, depending on technology or market?
- Analysis of the idea of the complete knapsack problem
- 图新地球为什么很模糊,白球、看图、下载问题深度剖析
- Advanced use of MySQL database
- QT with OpenGL(Shadow Mapping)(面光源篇)
猜你喜欢
QT with OpenGL(HDR)
孙宇晨式“溢价逻辑”:不局限眼前,为全人类的“星辰大海”大胆下注
Advanced use of MySQL database
MySQL database combat (1)
How to retrieve IDC research reports?
This article understands the process from RS485 sensor to IoT gateway to cloud platform
Classical Architecture and Memory Classification of Embedded Software Components
成为优秀架构师必备技能:怎样才能画出让所有人赞不绝口的系统架构图?秘诀是什么?快来打开这篇文章看看吧!...
Skills required to be a good architect: How to draw a system architecture that everyone will love?What's the secret?Come and open this article to see it!...
numpy
随机推荐
开源一夏 | 教你快速实现“基于Docker快速构建基于Prometheus的MySQL监控系统”
Dry goods!A highly structured and sparse linear transformation called Deformable Butterfly (DeBut)
关于OPENSSL的问题
月薪没到35K的程序员必须要背的面试八股,我先啃为敬!
MapReduce中ETL数据清洗案例
Mysql OCP 73 questions
【网络原理的概念】
type="module" you know, but type="importmap" you know
Babbitt | Metaverse daily must-read: Players leave, platforms are shut down, and the digital collection market is gradually cooling down. Where is the future of the industry?...
【输出一个整数的的每一位,由高到低输出。使用递归和不使用递归】
后台图库上传功能
How to deal with this time of MySQL binlog??
跨链桥协议 Nomad 遭遇黑客攻击,损失超 1.5 亿美元
Leecode-SQL 1527. 模糊查询匹配(模糊查询用法)
记某社区问答
QT with OpenGL(HDR)
This article understands the process from RS485 sensor to IoT gateway to cloud platform
请问应该用什么关键字将内容主题设置为 dark 呢
Boolean 与numeric 无法互转
Interview Blitz 71: What's the difference between GET and POST?