当前位置:网站首页>ICLR 2022 | 基于对抗自注意力机制的预训练语言模型
ICLR 2022 | 基于对抗自注意力机制的预训练语言模型
2022-07-06 15:33:00 【智源社区】
论文名称:
Adversarial Self-Attention For Language Understanding
ICLR 2022
https://arxiv.org/pdf/2206.12608.pdf
大量的证据表明,自注意力可以从 allowing bias 中获益,allowing bias 可以将一定程度的先验(如 masking,分布的平滑)加入原始的注意力结构中。这些先验知识能够让模型从较小的语料中学习有用的知识。但是这些先验知识一般是任务特定的知识,使得模型很难扩展到丰富的任务上。 adversarial training 通过给输入内容添加扰动来提升模型的鲁棒性。作者发现仅仅给 input embedding 添加扰动很难 confuse 到 attention maps. 模型的注意在扰动前后没有发生变化。
最大化 empirical training risk,在自动化构建先验知识的过程学习得到biased(or adversarial)的结构。 adversial 结构是由输入数据学到,使得 ASA 区别于传统的对抗训练或自注意力的变体。 使用梯度反转层来将 model 和 adversary 结合为整体。 ASA 天然具有可解释性。
边栏推荐
- 2022-07-04 the high-performance database engine stonedb of MySQL is compiled and run in centos7.9
- Inno Setup 打包及签名指南
- How do I write Flask's excellent debug log message to a file in production?
- UDP编程
- Aardio - does not declare the method of directly passing float values
- 如何用程序确认当前系统的存储模式?
- Self made j-flash burning tool -- QT calls jlinkarm DLL mode
- QT信号和槽
- qt quick项目offscreen模式下崩溃的问题处理
- How big is the empty structure?
猜你喜欢
Netxpert xg2 helps you solve the problem of "Cabling installation and maintenance"
欧洲生物信息研究所2021亮点报告发布:采用AlphaFold已预测出近1百万个蛋白质
2022-07-04 the high-performance database engine stonedb of MySQL is compiled and run in centos7.9
leetcode:面试题 17.24. 子矩阵最大累加和(待研究)
金融人士必读书籍系列之六:权益投资(基于cfa考试内容大纲和框架)
云原生技术--- 容器知识点
LeetCode 练习——剑指 Offer 26. 树的子结构
View
Unity3d minigame unity webgl transform plug-in converts wechat games to use dlopen, you need to use embedded 's problem
On the problems of born charge and non analytical correction in phonon and heat transport calculations
随机推荐
pytorch_ Yolox pruning [with code]
关于声子和热输运计算中BORN电荷和non-analytic修正的问题
What are the specific steps and schedule of IELTS speaking?
MySQL数据库基本操作-DML
2022-07-05 stonedb的子查询处理解析耗时分析
网络基础入门理解
Inno setup packaging and signing Guide
Balanced Multimodal Learning via On-the-fly Gradient Modulation(CVPR2022 oral)
pytorch_YOLOX剪枝【附代码】
UVa 11732 – strcmp() Anyone?
POJ 1094 sorting it all out
Improving Multimodal Accuracy Through Modality Pre-training and Attention
专为决策树打造,新加坡国立大学&清华大学联合提出快速安全的联邦学习新系统
Pit encountered by handwritten ABA
将MySQL的表数据纯净方式导出
2014 Alibaba web pre intern project analysis (1)
MySQL约束的分类、作用及用法
使用云服务器搭建代理
Traversal of a tree in first order, middle order, and then order
Machine test question 1