当前位置:网站首页>CMU提出NLP新范式—重构预训练,高考英语交出134高分
CMU提出NLP新范式—重构预训练,高考英语交出134高分
2022-06-28 01:03:00 【智源社区】
本文提出的重构预训练(reStructured Pre-training,RST),不仅在各种 NLP 任务上表现亮眼,在高考英语上,也交出了一份满意的成绩。
我们存储数据的方式正在发生变化,从生物神经网络到人工神经网络,其实最常见的情况是使用大脑来存储数据。随着当今可用数据的不断增长,人们寻求用不同的外部设备存储数据,如硬盘驱动器或云存储。随着深度学习技术的兴起,另一种有前景的存储技术已经出现,它使用人工神经网络来存储数据中的信息。
研究者认为,数据存储的最终目标是更好地服务于人类生活,数据的访问方式和存储方式同样重要。然而,存储和访问数据的方式存在差异。历史上,人们一直在努力弥补这一差距,以便更好地利用世界上存在的信息。如图 3 所示:

在生物神经网络(如人脑)方面,人类在很小的时候就接受了课程(即知识)教育,以便他们能够提取特定的数据来应对复杂多变的生活。
对于外部设备存储,人们通常按照某种模式(例如表格)对数据进行结构化,然后采用专门的语言(例如 SQL)从数据库中有效地检索所需的信息。
对于基于人工神经网络的存储,研究人员利用自监督学习存储来自大型语料库的数据(即预训练),然后将该网络用于各种下游任务(例如情绪分类)。
来自 CMU 的研究者提出了一种访问包含各种类型信息数据的新方法,这些信息可以作为指导模型进行参数优化的预训练信号。该研究以信号为单位结构化地表示数据。这类似于使用数据库对数据进行存储的场景:首先将它们构造成表或 JSON 格式,这样就可以通过专门的语言 (如 SQL) 准确地检索所需的信息。
此外,该研究认为有价值的信号丰富地存在于世界各类的数据中,而不是简单地存在于人工管理的监督数据集中, 研究人员需要做的是 (a) 识别数据 (b) 用统一的语言重组数据(c)将它们集成并存储到预训练语言模型中。该研究称这种学习范式为重构预训练(reStructured Pre-training,RST)。研究者将这个过程比作「矿山寻宝」。不同的数据源如维基百科,相当于盛产宝石的矿山。它们包含丰富的信息,比如来自超链接的命名实体,可以为模型预训练提供信号。一个好的预训练模型 (PLM) 应该清楚地了解数据中各种信号的组成,以便根据下游任务的不同需求提供准确的信息。

论文标题:
reStructured Pre-training
论文链接:
https://arxiv.org/pdf/2206.11147.pdf

▲ 预训练语言模型寻宝
该研究提出自然语言处理任务学习的新范式,即 RST,该范式重新重视数据的作用,并将模型预训练和下游任务的微调视为数据的存储和访问过程。在此基础上,该研究实现了一个简单的原则,即良好的存储机制不仅应该具有缓存大量数据的能力,还应该考虑访问的方便性。
在克服了一些工程挑战后,该研究通过对重构数据(由各种有价值的信息而不是原始数据组成)进行预训练来实现这一点。实验证明,RST 模型不仅在来自各种 NLP 任务(例如分类、信息抽取、事实检索、文本生成等)的 52/55 流行数据集上表现大幅超过现有最好系统(例如,T0),而且无需对下游任务进行微调 。在每年有数百万学生参加的中国最权威的高考英语考试中也取得了优异的成绩。
具体而言,本文所提出的高考 AI (Qin) 比学生的平均分数高出 40 分,比使用 1/16 参数的 GPT3 高出 15 分。特别的 Qin 在 2018 年英语考试中获得了 138.5 的高分(满分 150)。
此外,该研究还发布了高考基准(Gaokao Benchmark)在线提交平台,包含 2018-2021 年至今 10 篇带注释的英文试卷(并将每年进行扩展),让更多的 AI 模型参加高考,该研究还建立了一个相对公平的人类和 AI 竞争的测试平台,帮助我们更好地了解我们所处的位置。另外,在前几天(2022.06.08)的 2022 年高考英语测试中,该 AI 系统获得了 134 分的好成绩,而 GPT3 只获得了 108 分。

该研究的主要贡献包括:
1. 提出 NLP 方法的演进假说。该研究试图通过探索现代 NLP 技术发展之间的内在联系,从全局的角度建立了「NLP 技术演进假说」。简而言之,该假说的核心思想是:技术的迭代总是沿着这样的方向发展:即开发者只需做更少的事情便可以来设计更好、更通用的系统。

重构预训练


重构工程


在55种常用的NLP数据集上的实验













边栏推荐
- [cloud native] - docker installation and deployment of distributed database oceanbase
- 简单ELK配置实现生产级别的日志采集和查询实践
- 【历史上的今天】6 月 25 日:笔记本之父诞生;Windows 98 发布;通用产品代码首次商用
- Unity WebGL打包后怎么运行(火狐配置)
- JS implementation clock
- 【历史上的今天】5 月 31 日:Amiga 之父诞生;BASIC 语言的共同开发者出生;黑莓 BBM 停运
- 毕业季来临,2022届高校毕业生人数首次突破千万大关
- Interview: is bitmap pixel memory allocated in heap memory or native
- How does win11 add printers and scanners? Win11 add printer and scanner settings
- Win11不能拖拽图片到任务栏软件上快速打开怎么办
猜你喜欢

【二維碼圖像矯正增强】基於MATLAB的二維碼圖像矯正增强處理仿真

Flask基础:模板渲染+模板过滤使用+控制语句

【历史上的今天】6 月 17 日:术语“超文本”的创造者出生;Novell 首席科学家诞生;探索频道开播

> Could not create task ‘:app:MyTest. main()‘. > SourceSet with name ‘main‘ not found. Problem repair

数据清洗工具flashtext,效率直接提升了几十倍数

How to realize red, green and yellow traffic lights in ros+gazebo?

Reprinted article: the digital economy generates strong demand for computing power Intel releases a number of innovative technologies to tap the potential of computing power

MySQL optimization tips

【历史上的今天】6 月 18 日:京东诞生;网店平台 Etsy 成立;Facebook 发布 Libra 白皮书

Moving Tencent to the cloud: half of the evolution history of cloud server CVM
随机推荐
【历史上的今天】6 月 13 日:分组交换网路的“亲子纠纷”;博弈论创始人出生;交互式电视初现雏形
【二維碼圖像矯正增强】基於MATLAB的二維碼圖像矯正增强處理仿真
4G-learn from great partners
简单ELK配置实现生产级别的日志采集和查询实践
Flashtext, a data cleaning tool, has directly increased the efficiency by dozens of times
[2D code image correction and enhancement] simulation of 2D code image correction and enhancement processing based on MATLAB
Livedata interview question bank and answers -- 7 consecutive questions for livedata interview~
第三批入围企业公示!年度TOP100智能网联供应商评选
【模糊神经网络】基于matlab的模糊神经网络仿真
Stm32f1 interrupt introduction
JS implementation clock
Prometheus 2.27.0 新特性
math_ (function & sequence) meaning of limit & misunderstanding and symbol sorting / neighborhood & de centring neighborhood & neighborhood radius
迪赛智慧数——柱状图(折柱混合图):2021年毕业季租房价格和房租收入比
LeetCode - Easy - 197
Opencv——霍夫变换以及遇到的一些问题
Interpretation of bilstm-crf in NER forward_ algorithm
【电梯控制系统】基于VHDL语言和状态机实现的电梯控制系统的设计,使用了状态机
毕业总结
【历史上的今天】6 月 24 日:网易成立;首届消费电子展召开;世界上第一次网络直播