当前位置:网站首页>一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
2022-07-04 12:52:00 【一个处女座的程序猿】
目录
一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
语言模型,图像、视频方面这一年都被Transformer架构同时刷新了模型规模和性能基准。这里还是要说到Transformer的各类变体在这一年中大放异彩,同时在NLP和CV领域频频刷榜。
近些年,transformer架构逐渐将其影响范围扩展到各种新领域。最初,Transformers是为自然语言处理而开发的,现在正在成为深度学习的瑞士军刀。 2021 年,它们被用来发现药物、识别语音和绘画等任务上。
transformers已经证明擅长视觉任务、预测地震以及分类和生成蛋白质。在过去的一年里,研究人员将它们推向了广阔的新领域。
TransGAN:TransGAN 是一个生成对抗网络,它结合了transformer以确保每个生成的像素与其之前生成的像素一致。这项工作在测量生成的图像与训练数据的相似程度方面取得了最先进的结果。
TimeSformer:Facebook 的 TimeSformer 使用该架构来识别视频剪辑中的动作。它解释视频帧的序列,而不是文本中通常的单词序列。它的性能优于卷积神经网络,可以在更短的时间内分析更长的剪辑片段,并使用更少的功率。
GPT-2:Facebook、Google和加州大学伯克利分校的研究人员在文本上训练了 GPT-2,然后冻结了它的自注意力和前馈层。他们能够针对各种领域进行微调,包括数学、逻辑问题和计算机视觉。
AlphaFold 2:DeepMind 发布了 AlphaFold 2 的开源版本,它使用transformer根据氨基酸序列找到蛋白质的 3D 形状。该模型激发了医学界的兴趣,因为它具有推动药物发现和揭示生物学见解的潜力。
Vision Transformer(ViT)以及Video ViT:
Transformer 于 2017 年首次亮相,并迅速改变了语言建模。它的自注意力机制跟踪序列中的每个元素与其他每个元素的关系,不仅适合分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。基于transformer的大型语言模型已成为新兴基础模型品种的示例——在大型未标记语料库上预训练的模型,可以针对有限数量的标记示例对专门任务进行微调。transformer在各种领域都能很好地工作的事实,可能预示着超越语言的基于transformer的基础模型。
深度学习的历史已经见证了一些迅速普及的想法:ReLU 激活函数、Adam 优化器、注意力机制和现在的transformer。过去一年的发展表明,这种架构仍在发挥作用。
边栏推荐
- Data warehouse interview question preparation
- TestSuite and testrunner in unittest
- 吃透Chisel语言.08.Chisel基础(五)——Wire、Reg和IO,以及如何理解Chisel生成硬件
- sharding key type not supported
- Leetcode T47: 全排列II
- LiveData
- 使用CLion编译OGLPG-9th-Edition源码
- 2022游戏出海实用发行策略
- Test evaluation of software testing
- 吃透Chisel语言.12.Chisel项目构建、运行和测试(四)——Chisel测试之ChiselTest
猜你喜欢
MATLAB中tiledlayout函数使用
[FAQ] summary of common causes and solutions of Huawei account service error 907135701
失败率高达80%,企业数字化转型路上有哪些挑战?
MySQL 5 installation and modification free
测试流程整理(3)
TestSuite and testrunner in unittest
2022 practice questions and mock exams for the main principals of hazardous chemical business units
吃透Chisel语言.06.Chisel基础(三)——寄存器和计数器
Understand chisel language thoroughly 12. Chisel project construction, operation and testing (IV) -- chisel test of chisel test
Supprimer les lettres dupliquées [avidité + pile monotone (maintenir la séquence monotone avec un tableau + Len)]
随机推荐
吃透Chisel语言.05.Chisel基础(二)——组合电路与运算符
92.(cesium篇)cesium楼栋分层
吃透Chisel语言.04.Chisel基础(一)——信号类型和常量
吃透Chisel语言.07.Chisel基础(四)——Bundle和Vec
Code hoof collection of wonderful secret place
[antd] how to set antd in form There is input in item Get input when gourp Value of each input of gourp
Apple 5g chip research and development failure: continue to rely on Qualcomm, but also worry about being prosecuted?
海外游戏代投需要注意的
Understand chisel language thoroughly 11. Chisel project construction, operation and test (III) -- scalatest of chisel test
2022 practice questions and mock exams for the main principals of hazardous chemical business units
Understand chisel language thoroughly 09. Chisel project construction, operation and testing (I) -- build and run chisel project with SBT
C # WPF realizes the real-time screen capture function of screen capture box
Yingshi Ruida rushes to the scientific and Technological Innovation Board: the annual revenue is 450million and the proposed fund-raising is 979million
Innovation and development of independent industrial software
Deming Lee listed on Shenzhen Stock Exchange: the market value is 3.1 billion, which is the husband and wife of Li Hu and Tian Hua
奇妙秘境 码蹄集
IP 实验室月复盘 · 第 5 期
Read excel table data
R语言ggplot2可视化:gganimate包创建动画图(gif)、使用anim_save函数保存gif可视化动图
如何游戏出海代运营、游戏出海代投