当前位置:网站首页>Label Semantic Aware Pre-training for Few-shot Text Classification
Label Semantic Aware Pre-training for Few-shot Text Classification
2022-07-03 09:20:00 【InfoQ】

简介
图片及文章介绍
整体构架


pipeline
- 黄金数据:是由一个未公开的benchmark数据集和一个公开的数据集。黄金数据人工标注的标注质量更高。
- 白银数据:也是一个公开数据集。白银数据是用启发性标注。
- 青铜数据:因为带标签数据成本昂贵,并且数量稀少。因此本文还从大量的无标签数据中获取预训练数据。就是使用的图二这个框架。
- 对话意图过滤器:是基于RoBERTa的。是将对话分为正例和负例。因为并不是所有的对话都还有某一个意图。比如“今天天气真好。”这句话是不带有任何意图的;但是“今天天气真好,所以我想去公园玩。”这句话就是带有一个明确的意图。如果你将没有意图的数据打上一个数据标签,会对预训练及之后的下游任务造成不利影响。因此要将无意图的句子去除掉。
- 意图生成器:因为无标签数据是没有意图标签的,因此使用一个基于T五的意图生成器生成对应对话句子的意图。
预训练形式


- 首先是随机mask。将句子中随机mask。然后使用T5生成mask标签的内容。
- 在这里是使用与下游任务相似的一个训练方法,就是意图分类。输入一个句子,然后将其分类,输出这样的意图自然语言标签。
- 最后是去噪。输入序列是由一个句子和对应的标签组成的,但是将标签mask掉了。输出要猜mask的内容是什么。
实验设计

微调部分
baselines:
- XLNet
- LM-BFF
- seq2eq-PTR
- T5
- T5(adapt)
补充

总结
Introduction
动机
- 预训练模型常用于对输入进行高效编码,但是很少有工作让模型访问标签的信息表示。
- 其他的工作只是在微调和预测阶段使用标签语。
- “黄金”和“白银”数据稀缺
贡献
- 在预训练期间将标签语义合并到生成模型中。
- 从无标签噪声数据中创建“话语-意图”对,用于标签语义感知预训练。(用于处理“青铜”数据, 为无标签文本创建“对话-意图”对)
- 意图和主题分类数据集SOTA。
Approach
data:
- 黄金数据:未公开的数据集 + PolyAI Banking,是带label的数据
- 白银数据:启发式标记数据集WikiHow,是带heuristicallyp-label的数据
- 青铜数据:伪标记数据,从无标签数据创建utterance-intent pairs。是seudo-label数据
对于无标签数据的处理:
- 对话过滤器:
- 并不是所有的对话都是有意图的(goal、intent)。
- 为了防止给无意图语句加上意图标签从而创造出毒数据影响下游任务,因此先将对话进行二分类(“non-intentful/negative” 和“intentful/positive” )。
- 使用Multi-Domain Goal-Oriented Dialogue (MultiDoGO) Schema-guided Dialogue(SGD) 对基于RoBERTa的对话分类器进行调整。
- 意图生成器:
- 使用黄金和白银数据微调T5,然后将过滤后的数据丢进去生成意图标签。还产生了37%训练集中没出现的标签。
预训练——label denoising
实验设置
微调:
baselines:
- XLNet
- LM-BFF
- seq2eq-PTR
- T5
- T5(adapt)
边栏推荐
- Modelcheckpoint auto save model
- Application of external interrupts
- pycharm 无法引入自定义包
- Basic use and actual combat sharing of crash tool
- Opencv feature extraction - hog
- Openeuler kernel technology sharing - Issue 1 - kdump basic principle, use and case introduction
- CV learning notes alexnet
- Leetcode - 933 number of recent requests
- Tensorflow built-in evaluation
- 2021-10-27
猜你喜欢

Opencv image rotation

RESNET code details

YOLO_ V1 summary

3.1 Monte Carlo Methods & case study: Blackjack of on-Policy Evaluation

LeetCode - 895 最大频率栈(设计- 哈希表+优先队列 哈希表 + 栈) *

CV learning notes - image filter

1. Finite Markov Decision Process

QT is a method of batch modifying the style of a certain type of control after naming the control

LeetCode 面试题 17.20. 连续中值(大顶堆+小顶堆)

2021-10-28
随机推荐
2.1 Dynamic programming and case study: Jack‘s car rental
20220602数学:Excel表列序号
Toolbutton property settings
Problems encountered when MySQL saves CSV files
My openwrt learning notes (V): choice of openwrt development hardware platform - mt7688
[combinatorics] combinatorial existence theorem (three combinatorial existence theorems | finite poset decomposition theorem | Ramsey theorem | existence theorem of different representative systems |
Matplotlib drawing
The new series of MCU also continues the two advantages of STM32 product family: low voltage and energy saving
Tensorflow2.0 save model
LeetCode - 673. 最长递增子序列的个数
LeetCode - 919. 完全二叉树插入器 (数组)
03 fastjason solves circular references
03 fastjason solves circular references
LeetCode - 508. Sum of subtree elements with the most occurrences (traversal of binary tree)
使用sed替换文件夹下文件
QT self drawing button with bubbles
Do you understand automatic packing and unpacking? What is the principle?
CV learning notes - scale invariant feature transformation (SIFT)
LeetCode - 1172 餐盘栈 (设计 - List + 小顶堆 + 栈))
Gif image analysis drawing RGB to YUV table lookup method to reduce CPU occupancy