当前位置:网站首页>ERNIE1.0 与 ERNIE2.0 论文解读
ERNIE1.0 与 ERNIE2.0 论文解读
2022-07-02 06:25:00 【lwgkzl】
总述
本文主要介绍百度发布的ERNIE1.0模型与ERNIE2.0模型。
1. ERNIE1.0 Enhanced Representation through Knowledge Integration
Motivation
BERT那种预测随机mask的方式忽略了句子中的实体信息以及实体与实体之间的关系(即外界的知识)。
Model
模型的训练分为三个阶段,每个阶段使用不同的mask策略,分别为随机mask, 随机mask句子中的某些短语,以及随机mask句子中的实体。在预训练的过程中,使得模型来预测句子中被mask掉的词,短语以及实体来学习句子的更加全面的语义信息。
2. ERNIE2.0 A Continual Pre-Training Framework for Language Understanding
Motivation
之前的预训练模型建模的预训练任务是基于词汇与词汇之间的共现关系来建模的。并不能学习到句子完整的词汇,语法以及语句信息。我们可以继续挖掘大量的预训练任务来建模这些信息,如段落中所有句子的顺序,具有特殊意义的实体(人名,地名等)。
对于大量的预训练任务,以multi-task的方式无法动态的增加新挖掘的预训练任务,因而不够灵活。而能动态增加新任务的continue learning的方法线性的学习每一个预训练任务又会有任务遗忘的问题。
本文提出了一个综合解决以上两个问题的模型框架。并且在这个框架的基础上,提出了多个预训练任务来挖掘句子的词汇,语法以及语义信息。
Model

整个框架的重点在右下角, 可以简单理解下右下角四层金字塔,先训练任务1的四分之一的数据,然后训练任务1的四分之一的数据以及任务2的三分之一的数据。第三次则训练任务1的1/4,任务2的1/3以及任务3的1/2的数据。以此类推,最后所有的数据都能训练完毕,模型以一种迭代的方式逐渐增加任务,保证可以动态的增加新任务,同时不会遗忘旧任务,并且没有增加计算量。
在这个框架的基础上,本文挖掘了很多新的预训练任务:分别为词汇界别,语法结构级别以及语义级别的。
其中
word-aware的与ernie1.0的训练目标基本一致,此外还加了一个大写词汇的预测(预测某词汇是不是大写),因为大写的词汇一般具有特殊意义。
Structure-aware的任务有1. 预测段落中所有句子的相对位置 2. 判断两句话是否在同一个文档中。
Semantic-aware的任务有1. 判断实体之间的关系(利用工具进行粗略标注) 2. 利用用户点击数据作为弱监督,学习询问与文档的相关性(用户点击了则粗略算作相关)
ps
ERNIE2.0提出的框架在工业界有着非常实际的意义, 因为它具备良好的扩展性,可以持续的学习,并且可以挖掘出更多的弱监督或者自监督信息。
BTW, ERNIE2.0的摘要写的一言难尽ummm
边栏推荐
猜你喜欢

TCP攻击

IDEA2020中测试PySpark的运行出错

UEditor . Net version arbitrary file upload vulnerability recurrence

Oracle EBs and apex integrated login and principle analysis

UEditor .Net版本任意文件上传漏洞复现

sqli-labs通關匯總-page2

SQLI-LABS通关(less15-less17)

Oracle EBS database monitoring -zabbix+zabbix-agent2+orabbix

Sqli-labs customs clearance (less1)

Proteus -- RS-232 dual computer communication
随机推荐
使用 Compose 实现可见 ScrollBar
spark sql任务性能优化(基础)
Oracle 11g sysaux table space full processing and the difference between move and shrink
数仓模型事实表模型设计
php中计算两个日期之前相差多少天、月、年
php中时间戳转换为毫秒以及格式化时间
类加载器及双亲委派机制
ORACLE EBS接口开发-json格式数据快捷生成
2021-07-17c /cad secondary development creation circle (5)
Oracle apex 21.2 installation and one click deployment
ORACLE 11G SYSAUX表空间满处理及move和shrink区别
Explain in detail the process of realizing Chinese text classification by CNN
oracle EBS标准表的后缀解释说明
SQL注入闭合判断
架构设计三原则
Anti shake and throttling of JS
MySQL组合索引加不加ID
ORACLE EBS ADI 开发步骤
oracle-外币记账时总账余额表gl_balance变化(上)
JS create a custom JSON array