当前位置:网站首页>BERT基于transformer的双向编码器
BERT基于transformer的双向编码器
2022-07-28 05:23:00 【山上的小酒馆】
BERT(Bidirection Ecoder Representations from Transformers):左右信息,深的双向Transformer编码(enceder)模型
基于特征的模型feature-based:ELMo,基于RNN
基于微调的模型fine-tuning:GPT,单向语言模型
目录
1.MLM:Mask Language Model 掩码语言模型(完形填空形式)自监督的方式
1.MLM:Mask Language Model 掩码语言模型(完形填空形式)自监督的方式
例如 i am a little boy,she is a beautiful gilr.转换成为MLM为i__ a __boy,__is a beautiful girl.
2.BERT框架:
pre-training和fine-tuning两步,第一步,不同的预训练任务上用无标签数据训练模型;第二步,使用预训练初始化参数并基于有标签的数据进行微调。
任务一:Mask-L-M 15%的概率掩码,其中80%mask,10%随机替换,10%不变
任务二:相邻句子预测(next sentence prediction),50%相邻句子,50%随机。
每个序列的第一个词源是特殊的用作分类的Token[CLS],最后的隐藏层的状态与这个Token[CLS]相关联,Token[CLS]用于生成序列的表征并用于分类任务,即学习到的特征都整合到[CLS]这个词源中。
大量无标签数据的训练结果不一定比少量有标签数据集训练的结果差。

输入由三部分组成,token embedding 为词编码,词义信息。segment为段编码,表示来自第几个句子。position embedding为位置嵌入,代表位置信息。
3.损失函数
- 第一部分是来自 Mask-LM 的单词级别分类任务;使用交叉熵损失
- 另一部分是句子级别的分类任务;使用交叉熵损失
- 总的目标函数为两个损失函数求和最小化
4.总结
通过这两个任务的联合学习,可以使得 BERT 学习到的表征既有 token 级别信息,同时也包含了句子级别的语义信息。
BERT告诉我们,大量无标签数据上的训练结果不一定比少量有标签数据上的训练结果差。
BERT使用自监督的方式在两个任务(MLM和NSP)上进行预训练,使得编码器具备优质的提取特征的能力,迁移至下游任务进一步完成NLP的任务。
BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili
https://www.bilibili.com/video/BV1PL411M7eQ?spm_id_from=333.999.0.0
边栏推荐
- 光伏发电系统——mppt最大功率点追踪
- 压敏电阻设计参数及经典电路记录 硬件学习笔记5
- Adaface: quality adaptive margin for face recognition image quality adaptive edge loss for face recognition
- (PHP graduation project) based on PHP online travel website management system to obtain
- (PHP graduation project) based on PHP Gansu tourism website management system to obtain
- Nsctf web Title writeup
- 深度学习(一):走进机器学习与深度学习理论部分
- dsp和fpga的通讯
- 机器学习之聚类
- CalendarExtender控件的中文显示问题
猜你喜欢

杭州某公司福禄克FLUKE DTX-SFM2单模模块-修复案例

开关电源电路EMI设计在layout过程中注意事项

Common CTF encryption methods JS

1、 Speech synthesis and autoregressive model

Prime_ Series range from detection to weight lifting

生活随机-1

详解爬电距离和电气间隙

On low resolution face recognition in the wild:comparisons and new technologies

8类网线测试仪AEM testpro CV100 和FLUKE DSX-8000哪些事?

LED发光二极管选型-硬件学习笔记3
随机推荐
Latex入门
使用PowerCli来创建自定义ESXi ISO镜像
AEM-TESTpro K50和南粤勘察结下的缘分
Reinforcement learning - proximal policy optimization algorithms
Differences between processes and threads
用颜色区分PCB品质本身就是一个笑话
基于直方图修改的可逆数字水印方法
(PHP graduation project) based on PHP user online submission management system
Protecting Against DNN Model Stealing Attacks 论文阅读心得
Neural network optimization
Word2vec+ regression model to achieve classification tasks
确保PoE设备成功部署的最佳实践
怎么看SIMULINK直接搭的模块的传递函数
浪涌冲击抗扰度实验(SURGE)-EMC系列 硬件设计笔记6
1、 Speech synthesis and autoregressive model
A comparative study of backdoor attack and counter sample attack
福禄克DSX2-5000 网络线缆测试仪为什么每年都要校准一次?
深度学习数据窃取攻击在数据沙箱模式下的威胁分析与防御方法研究阅读心得
3、 Openvino practice: image classification
生活随机-1