当前位置:网站首页>Label Semantic Aware Pre-training for Few-shot Text Classification
Label Semantic Aware Pre-training for Few-shot Text Classification
2022-07-03 09:20:00 【InfoQ】

简介
图片及文章介绍
整体构架


pipeline
- 黄金数据:是由一个未公开的benchmark数据集和一个公开的数据集。黄金数据人工标注的标注质量更高。
- 白银数据:也是一个公开数据集。白银数据是用启发性标注。
- 青铜数据:因为带标签数据成本昂贵,并且数量稀少。因此本文还从大量的无标签数据中获取预训练数据。就是使用的图二这个框架。
- 对话意图过滤器:是基于RoBERTa的。是将对话分为正例和负例。因为并不是所有的对话都还有某一个意图。比如“今天天气真好。”这句话是不带有任何意图的;但是“今天天气真好,所以我想去公园玩。”这句话就是带有一个明确的意图。如果你将没有意图的数据打上一个数据标签,会对预训练及之后的下游任务造成不利影响。因此要将无意图的句子去除掉。
- 意图生成器:因为无标签数据是没有意图标签的,因此使用一个基于T五的意图生成器生成对应对话句子的意图。
预训练形式


- 首先是随机mask。将句子中随机mask。然后使用T5生成mask标签的内容。
- 在这里是使用与下游任务相似的一个训练方法,就是意图分类。输入一个句子,然后将其分类,输出这样的意图自然语言标签。
- 最后是去噪。输入序列是由一个句子和对应的标签组成的,但是将标签mask掉了。输出要猜mask的内容是什么。
实验设计

微调部分
baselines:
- XLNet
- LM-BFF
- seq2eq-PTR
- T5
- T5(adapt)
补充

总结
Introduction
动机
- 预训练模型常用于对输入进行高效编码,但是很少有工作让模型访问标签的信息表示。
- 其他的工作只是在微调和预测阶段使用标签语。
- “黄金”和“白银”数据稀缺
贡献
- 在预训练期间将标签语义合并到生成模型中。
- 从无标签噪声数据中创建“话语-意图”对,用于标签语义感知预训练。(用于处理“青铜”数据, 为无标签文本创建“对话-意图”对)
- 意图和主题分类数据集SOTA。
Approach
data:
- 黄金数据:未公开的数据集 + PolyAI Banking,是带label的数据
- 白银数据:启发式标记数据集WikiHow,是带heuristicallyp-label的数据
- 青铜数据:伪标记数据,从无标签数据创建utterance-intent pairs。是seudo-label数据
对于无标签数据的处理:
- 对话过滤器:
- 并不是所有的对话都是有意图的(goal、intent)。
- 为了防止给无意图语句加上意图标签从而创造出毒数据影响下游任务,因此先将对话进行二分类(“non-intentful/negative” 和“intentful/positive” )。
- 使用Multi-Domain Goal-Oriented Dialogue (MultiDoGO) Schema-guided Dialogue(SGD) 对基于RoBERTa的对话分类器进行调整。
- 意图生成器:
- 使用黄金和白银数据微调T5,然后将过滤后的数据丢进去生成意图标签。还产生了37%训练集中没出现的标签。
预训练——label denoising
实验设置
微调:
baselines:
- XLNet
- LM-BFF
- seq2eq-PTR
- T5
- T5(adapt)
边栏推荐
- Screen display of charging pile design -- led driver ta6932
- LeetCode - 1670 設計前中後隊列(設計 - 兩個雙端隊列)
- Leetcode-100:相同的树
- 4G module IMEI of charging pile design
- 4G module at command communication package interface designed by charging pile
- Sending and interrupt receiving of STM32 serial port
- (2)接口中新增的方法
- ADS simulation design of class AB RF power amplifier
- 03 fastjason solves circular references
- JS foundation - prototype prototype chain and macro task / micro task / event mechanism
猜你喜欢
CV learning notes - Stereo Vision (point cloud model, spin image, 3D reconstruction)
2312. Selling wood blocks | things about the interviewer and crazy Zhang San (leetcode, with mind map + all solutions)
openCV+dlib实现给蒙娜丽莎换脸
SCM is now overwhelming, a wide variety, so that developers are overwhelmed
JS foundation - prototype prototype chain and macro task / micro task / event mechanism
LeetCode - 919. Full binary tree inserter (array)
yocto 技术分享第四期:自定义增加软件包支持
QT is a method of batch modifying the style of a certain type of control after naming the control
Mobile phones are a kind of MCU, but the hardware it uses is not 51 chip
Leetcode - 460 LFU cache (Design - hash table + bidirectional linked hash table + balanced binary tree (TreeSet))*
随机推荐
4G module designed by charging pile obtains signal strength and quality
pycharm 无法引入自定义包
LeetCode - 5 最长回文子串
CV learning notes - edge extraction
Stm32 NVIC interrupt priority management
4G module at command communication package interface designed by charging pile
About windows and layout
is_ power_ of_ 2 judge whether it is a multiple of 2
03 fastjason solves circular references
openEuler kernel 技術分享 - 第1期 - kdump 基本原理、使用及案例介紹
I think all friends should know that the basic law of learning is: from easy to difficult
2021-10-28
CV learning notes convolutional neural network
【C 题集】of Ⅵ
SCM is now overwhelming, a wide variety, so that developers are overwhelmed
20220531数学:快乐数
Toolbutton property settings
Modelcheckpoint auto save model
使用密钥对的形式连接阿里云服务器
Drive and control program of Dianchuan charging board for charging pile design