当前位置:网站首页>一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
2022-07-04 12:52:00 【一个处女座的程序猿】
目录
一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
语言模型,图像、视频方面这一年都被Transformer架构同时刷新了模型规模和性能基准。这里还是要说到Transformer的各类变体在这一年中大放异彩,同时在NLP和CV领域频频刷榜。
近些年,transformer架构逐渐将其影响范围扩展到各种新领域。最初,Transformers是为自然语言处理而开发的,现在正在成为深度学习的瑞士军刀。 2021 年,它们被用来发现药物、识别语音和绘画等任务上。
transformers已经证明擅长视觉任务、预测地震以及分类和生成蛋白质。在过去的一年里,研究人员将它们推向了广阔的新领域。
TransGAN:TransGAN 是一个生成对抗网络,它结合了transformer以确保每个生成的像素与其之前生成的像素一致。这项工作在测量生成的图像与训练数据的相似程度方面取得了最先进的结果。
TimeSformer:Facebook 的 TimeSformer 使用该架构来识别视频剪辑中的动作。它解释视频帧的序列,而不是文本中通常的单词序列。它的性能优于卷积神经网络,可以在更短的时间内分析更长的剪辑片段,并使用更少的功率。
GPT-2:Facebook、Google和加州大学伯克利分校的研究人员在文本上训练了 GPT-2,然后冻结了它的自注意力和前馈层。他们能够针对各种领域进行微调,包括数学、逻辑问题和计算机视觉。
AlphaFold 2:DeepMind 发布了 AlphaFold 2 的开源版本,它使用transformer根据氨基酸序列找到蛋白质的 3D 形状。该模型激发了医学界的兴趣,因为它具有推动药物发现和揭示生物学见解的潜力。
Vision Transformer(ViT)以及Video ViT:
Transformer 于 2017 年首次亮相,并迅速改变了语言建模。它的自注意力机制跟踪序列中的每个元素与其他每个元素的关系,不仅适合分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。基于transformer的大型语言模型已成为新兴基础模型品种的示例——在大型未标记语料库上预训练的模型,可以针对有限数量的标记示例对专门任务进行微调。transformer在各种领域都能很好地工作的事实,可能预示着超越语言的基于transformer的基础模型。
深度学习的历史已经见证了一些迅速普及的想法:ReLU 激活函数、Adam 优化器、注意力机制和现在的transformer。过去一年的发展表明,这种架构仍在发挥作用。
边栏推荐
- Use the default route as the route to the Internet
- 【Matlab】conv、filter、conv2、filter2和imfilter卷积函数总结
- Leetcode T47: 全排列II
- 吃透Chisel语言.10.Chisel项目构建、运行和测试(二)——Chisel中生成Verilog代码&Chisel开发流程
- Gorm data insertion (transfer)
- Ruichengxin micro sprint technology innovation board: annual revenue of 367million, proposed to raise 1.3 billion, Datang Telecom is a shareholder
- What is the real meaning and purpose of doing things, and what do you really want
- Install and use MAC redis, connect to remote server redis
- R语言使用lattice包中的bwplot函数可视化箱图(box plot)、par.settings参数自定义主题模式
- Data warehouse interview question preparation
猜你喜欢
Apple 5g chip research and development failure: continue to rely on Qualcomm, but also worry about being prosecuted?
gin集成支付宝支付
Unity Shader学习(三)试着绘制一个圆
Understand chisel language thoroughly 05. Chisel Foundation (II) -- combinational circuits and operators
MySQL 5 installation and modification free
迅为IMX6Q开发板QT系统移植tinyplay
为什么图片传输要使用base64编码
392. Judgement subsequence
2022 practice questions and mock exams for the main principals of hazardous chemical business units
使用CLion编译OGLPG-9th-Edition源码
随机推荐
Use of tiledlayout function in MATLAB
LiveData
Excel quickly merges multiple rows of data
基于PaddleX的智能零售柜商品识别
递增的三元子序列[贪心训练]
nowcoder重排链表
基于YOLOv1的口罩佩戴检测
Xcode 异常图片导致ipa包增大问题
Ws2818m is packaged in cpc8. It is a special circuit for three channel LED drive control. External IC full-color double signal 5v32 lamp programmable LED lamp with outdoor engineering
流行框架:Glide的使用
Use the default route as the route to the Internet
China Post technology rushes to the scientific innovation board: the annual revenue is 2.058 billion, and the postal group is the major shareholder
去除重複字母[貪心+單調棧(用數組+len來維持單調序列)]
DDD application and practice of domestic hotel transactions -- Code
软件测试之测试评估
Golang uses JSON unmarshal number to interface{} number to become float64 type (turn)
Unittest框架中引入TestFixture
GCC [6] - 4 stages of compilation
2022 game going to sea practical release strategy
R语言使用dplyr包的group_by函数和summarise函数基于分组变量计算目标变量的均值、标准差