当前位置:网站首页>NLP常用Backbone模型小抄(1)
NLP常用Backbone模型小抄(1)
2022-08-02 22:43:00 【Andy Dennis】
前言
自17年Transformer出现以来,NLP各大工作都出现它的身影。最近,斯坦福还专门为transformer开了一门课程CS25: 【Stanford】CS25 Transformers United | Fall 2021
刚入门NLP的人可以看看我之前写的一篇文章 研0_NLPer启程
对于对应的模型,可以去hugginface的transfomers库看看 transformers/models (github), 可以找到对应模型看看它的源码实现。
现在主要是结合上下文的动态词向量编码技术,很少使用word2vec, glove词表进行静态词向量映射了。
b站一个视频 吹爆!计算机博士【NLP自然语言处理】不愧是清华教授!5小时让我搞定了NLP自然语言处理! (虽然标题有些emm…但是看了一下目录啥的好像还行…
论文
Mass
Bart
T5
Exploring the Limits of Transfer Learning with a Unified
Text-to-Text Transformer
Bert
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
encoder结构。bert家族很多,如蒸馏版本distilBert, 变体Roberta等。
词向量输入构成:

transformer
著名的self-attention就出自这篇文章.
Attention Is All You Need
之前复现过这个模型: transformer结构复现__attention is all you need (pytorch)
encoder-decoder结构:
Attention模块:
边栏推荐
猜你喜欢
R语言自学 1 - 向量
创建型模式 - 抽象工厂模式AbstractFactory
The only way to go from a monthly salary of 10k to 30k: automated testing
No-code development platform form styling steps introductory course
2022暑假牛客多校1 (A/G/D/I)
典型相关分析CCA计算过程
C语言函数详解(2)【函数参数——实际参数(实参)&形式参数(形参)】
resubmit 渐进式防重复提交框架简介
VS保存后Unity不刷新
思源笔记 本地存储无使用第三方同步盘,突然打不开文件。
随机推荐
Shunted Self-Attention via Multi-Scale Token Aggregation
基于奇异谱分析法和长短时记忆网络组合模型的滑坡位移预测
Based on two levels of decomposition and the length of the memory network multi-step combined forecasting model of short-term wind speed
精心整理16条MySQL使用规范,减少80%问题,推荐分享给团队
在软件测试行业近20年的我,再来和大家谈谈今日的软件测试
目前为止 DAO靠什么盈利?
基于STM32的FLASH读写实验含代码(HAL库)
today‘s task
思源笔记 本地存储无使用第三方同步盘,突然打不开文件。
group of people
Broadcast platform, the use of the node generated captcha image, and validate
centos7安装mysql8
CodeTON Round 2 A - D
Word operation: adjust the English font individually
学习基因富集工具DAVID(2)
No code development platform data ID introductory tutorial
centos7安装mysql5.7步骤(图解版)
【C语言】带头双向循环链表(list)详解(定义、增、删、查、改)
Web APIs BOM- 操作浏览器-Window对象
第十章 时序与延迟