当前位置:网站首页>初始transformer需要了解的一些概念
初始transformer需要了解的一些概念
2022-06-22 11:32:00 【地瓜没有花】
深度学习之transformer
embedding
什么是Embedding?
Embedding(嵌入)是拓扑学里面的词,在深度学习领域经常和Manifold(流形)搭配使用。可以用几个例子来说明,比如三维空间的球体是一个二维流形嵌入在三维空间(2D manifold embedded in 3D space)。之所以说他是一个二维流形,是因为球上的任意一个点只需要用一个二维的经纬度来表达就可以了。又比如一个二维空间的旋转矩阵是2x2的矩阵,其实只需要一个角度就能表达了,这就是一个一维流形嵌入在2x2的矩阵空间。
什么是深度学习里的Embedding?
这个概念在深度学习领域最原初的切入点是所谓的Manifold Hypothesis(流形假设)。流形假设是指“自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维空间”。那么,深度学习的任务就是把高维原始数据(图像,句子)映射到低维流形,使得高维的原始数据被映射到低维流形之后变得可分,而这个映射就叫嵌入(Embedding)。比如Word Embedding,就是把单词组成的句子映射到一个表征向量。但后来不知咋回事,开始把低维流形的表征向量叫做Embedding,其实是一种误用。。。如果按照现在深度学习界通用的理解(其实是偏离了原意的),Embedding就是从原始数据提取出来的Feature,也就是那个通过神经网络映射之后的低维向量。
具体可参考:Neural Networks, Manifolds, and Topology
softmax函数
softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类!假设我们有一个数组,V,Vi表示V中的第i个元素,那么这个元素的softmax值就是
更形象的如下图表示:
softmax直白来说就是将原来输出是3,1,-3通过softmax函数一作用,就映射成为(0,1)的值,而这些值的累和为1(满足概率的性质),那么我们就可以将它理解成概率,在最后选取输出结点的时候,我们就可以选取概率最大(也就是值对应最大的)结点,作为我们的预测目标!
具体参考:Softmax 函数的特点和作用是什么?
Dim
DIM 是Dimension的简写,用來定义变量等。
边栏推荐
- APM flight mode switching -- source code explanation
- R language uses user-defined functions to write step activation functions for deep learning and visualize step activation functions
- IO之Reader案例
- Matlab的KNN分类使用(附源码),实现像素分类(自己设置训练集比例),打印测试精度
- Solution to 55e of Niuke challenge
- 牛客挑战赛53E题解 & 带花树学习笔记
- CF736 D2
- Authenticated cookies, sessions, JWT
- “不敢去怀疑代码,又不得不怀疑代码”记一次网络请求超时分析
- [安洵杯 2019]iamthinking
猜你喜欢

Redis - 12、应用问题解决

什么是同源???跨域错误???如何解决???

TiFlash 函数下推必知必会丨十分钟成为 TiFlash Contributor

在C#开发中使用第三方组件LambdaParser、DynamicExpresso、Z.Expressions,实现动态解析/求值字符串表达式

Matlab的KNN分類使用(附源碼),實現像素分類(自己設置訓練集比例),打印測試精度

"Dare not doubt the code, but have to doubt the code" a network request timeout analysis
![[Software Engineering] Introduction & process and life cycle modeling](/img/92/433e2fae846406252ee0d4c47bd54b.png)
[Software Engineering] Introduction & process and life cycle modeling

More than half of 2022, no new air outlet

【软工】获取需求

CF751E Phys Ed Online
随机推荐
IO之Reader案例
【软工】 概论 & 过程和生命周期建模
haas506 2.0开发教程-高级组件库-modem.info(仅支持2.2以上版本)
IO之Buffered流案例
Utilisation de la classification knn de Matlab (avec code source), réalisation de la classification des pixels (auto - réglage de l'échelle de l'ensemble de formation), précision de l'essai d'impressi
Call center terminology
《梦华录》成吸金王:广告主投500万排不上队,腾讯视频赢麻了?
奋斗吧,程序员——第四十章 一面风情深有韵,半笺娇恨寄幽怀
奋斗吧,程序员——第三十八章 旧时茅店社林边,路转溪头忽见
【软工】 软件体系结构
鉴权之cookie、session、JWT
"Dare not doubt the code, but have to doubt the code" a network request timeout analysis
Interpretation of basic requirements for classified protection of network security (GBT 22239-2019)
Typical life cycle model of information system project
R language uses user-defined functions to write step activation functions for deep learning and visualize step activation functions
在C#开发中使用第三方组件LambdaParser、DynamicExpresso、Z.Expressions,实现动态解析/求值字符串表达式
Haas506 2.0 development tutorial - Advanced Component Library -modem Info (only supports versions above 2.2)
Add custom fields to the time synchronization message based on uavcan protocol in Px4 code learning
宏定义使用以及typedef和const
Reader case of IO