当前位置:网站首页>ERNIE1.0 与 ERNIE2.0 论文解读
ERNIE1.0 与 ERNIE2.0 论文解读
2022-07-02 06:25:00 【lwgkzl】
总述
本文主要介绍百度发布的ERNIE1.0模型与ERNIE2.0模型。
1. ERNIE1.0 Enhanced Representation through Knowledge Integration
Motivation
BERT那种预测随机mask的方式忽略了句子中的实体信息以及实体与实体之间的关系(即外界的知识)。
Model
模型的训练分为三个阶段,每个阶段使用不同的mask策略,分别为随机mask, 随机mask句子中的某些短语,以及随机mask句子中的实体。在预训练的过程中,使得模型来预测句子中被mask掉的词,短语以及实体来学习句子的更加全面的语义信息。
2. ERNIE2.0 A Continual Pre-Training Framework for Language Understanding
Motivation
之前的预训练模型建模的预训练任务是基于词汇与词汇之间的共现关系来建模的。并不能学习到句子完整的词汇,语法以及语句信息。我们可以继续挖掘大量的预训练任务来建模这些信息,如段落中所有句子的顺序,具有特殊意义的实体(人名,地名等)。
对于大量的预训练任务,以multi-task的方式无法动态的增加新挖掘的预训练任务,因而不够灵活。而能动态增加新任务的continue learning的方法线性的学习每一个预训练任务又会有任务遗忘的问题。
本文提出了一个综合解决以上两个问题的模型框架。并且在这个框架的基础上,提出了多个预训练任务来挖掘句子的词汇,语法以及语义信息。
Model

整个框架的重点在右下角, 可以简单理解下右下角四层金字塔,先训练任务1的四分之一的数据,然后训练任务1的四分之一的数据以及任务2的三分之一的数据。第三次则训练任务1的1/4,任务2的1/3以及任务3的1/2的数据。以此类推,最后所有的数据都能训练完毕,模型以一种迭代的方式逐渐增加任务,保证可以动态的增加新任务,同时不会遗忘旧任务,并且没有增加计算量。
在这个框架的基础上,本文挖掘了很多新的预训练任务:分别为词汇界别,语法结构级别以及语义级别的。
其中
word-aware的与ernie1.0的训练目标基本一致,此外还加了一个大写词汇的预测(预测某词汇是不是大写),因为大写的词汇一般具有特殊意义。
Structure-aware的任务有1. 预测段落中所有句子的相对位置 2. 判断两句话是否在同一个文档中。
Semantic-aware的任务有1. 判断实体之间的关系(利用工具进行粗略标注) 2. 利用用户点击数据作为弱监督,学习询问与文档的相关性(用户点击了则粗略算作相关)
ps
ERNIE2.0提出的框架在工业界有着非常实际的意义, 因为它具备良好的扩展性,可以持续的学习,并且可以挖掘出更多的弱监督或者自监督信息。
BTW, ERNIE2.0的摘要写的一言难尽ummm
边栏推荐
- Only the background of famous universities and factories can programmers have a way out? Netizen: two, big factory background is OK
- Oracle 11g uses ords+pljson to implement JSON_ Table effect
- 2021-07-05c /cad secondary development create arc (4)
- SSM学生成绩信息管理系统
- sqli-labs通關匯總-page2
- DNS attack details
- 外币记账及重估总账余额表变化(下)
- Oracle 11g sysaux table space full processing and the difference between move and shrink
- Sqli-labs customs clearance (less1)
- ORACLE APEX 21.2安裝及一鍵部署
猜你喜欢
随机推荐
Oracle EBs and apex integrated login and principle analysis
Oracle apex Ajax process + dy verification
SQLI-LABS通关(less6-less14)
Sqli-labs customs clearance (less1)
Sqli-labs customs clearance (less6-less14)
Oracle 11g sysaux table space full processing and the difference between move and shrink
Differences between ts and JS
IDEA2020中PySpark的两表关联(字段名相同)
Oracle EBS ADI development steps
Oracle EBS database monitoring -zabbix+zabbix-agent2+orabbix
CAD secondary development object
SQLI-LABS通关(less18-less20)
SQLI-LABS通關(less6-less14)
view的绘制机制(三)
ssm人事管理系统
Module not found: Error: Can't resolve './$$_ gendir/app/app. module. ngfactory'
ARP攻击
ssm超市订单管理系统
2021-07-17C#/CAD二次开发创建圆(5)
Go package name









