当前位置：网站首页>Label Semantic Aware Pre-training for Few-shot Text Classification

Label Semantic Aware Pre-training for Few-shot Text Classification

2022-07-03 09:20:00 【InfoQ】

null

论文地址：

Label Semantic Aware Pre-training for Few-shot Text Classification - ACL Anthology

简介

在文本分类任务中，有用的信息被编码在标签名称中。之前的工作只是在微调和预测期间利用这些标签的语义信息，在提高了文本分类性能。然而，在预训练期间使用标签语义尚未得到广泛探索。这篇论文就

提出了标签语义感知预训练（LSAP）

。

LSAP 通过对来自各种领域的标记句子进行二次预训练，将标签语义整合到预训练的生成模型中。由于域通用预训练需要大量数据，这篇论文

还开发了一个过滤和标记pipeline从无标签文本自动创建“句子-标签”对。

提出的方法在意图（ATIS、Snips、TOPv2）和主题分类（AG News、Yahoo! Answers）数据集上进行实验。 LSAP 在少样本文本分类的表现由于SOTA，同时在高资源设置中保持了与SOTA水平相当的性能。

图片及文章介绍

整体构架

null

第一张图是对模型构架的一个整体描述。输入序列是由一个带有意图的句子和意图标签组成的。首先是将意图标签转换成人类的自然语言。然后将其作为T5模型的输入。在预训练阶段是将标签mask掉，使用模型输出标签内容。

null

pipeline

这张图就是一个过滤句子的pipeline。先说一下论文中预训练使用到的大量的数据集。作者教将训练数据集分为三类，黄金、白银和青铜。

黄金数据：是由一个未公开的benchmark数据集和一个公开的数据集。黄金数据人工标注的标注质量更高。

白银数据：也是一个公开数据集。白银数据是用启发性标注。

青铜数据：因为带标签数据成本昂贵，并且数量稀少。因此本文还从大量的无标签数据中获取预训练数据。就是使用的图二这个框架。

图二这个框架主要有两部分组成。一个对话意图过滤器+一个意图生成器。

对话意图过滤器：是基于RoBERTa的。是将对话分为正例和负例。因为并不是所有的对话都还有某一个意图。比如“今天天气真好。”这句话是不带有任何意图的；但是“今天天气真好，所以我想去公园玩。”这句话就是带有一个明确的意图。如果你将没有意图的数据打上一个数据标签，会对预训练及之后的下游任务造成不利影响。因此要将无意图的句子去除掉。

意图生成器：因为无标签数据是没有意图标签的，因此使用一个基于T五的意图生成器生成对应对话句子的意图。

所以整个pipeline的作用就是：

首先将输入数据进行分类，筛选掉无意图的句子。然后给剩余的句子生成对应的意图标签。最后将句子与意图标签拼接。

预训练形式

null

null

在预训练中或者是尝试了三种不同的形式。最后的效果如上面那个表格所示。作者采用了效果最好的标签去噪。

首先是随机mask。将句子中随机mask。然后使用T5生成mask标签的内容。

在这里是使用与下游任务相似的一个训练方法，就是意图分类。输入一个句子，然后将其分类，输出这样的意图自然语言标签。

最后是去噪。输入序列是由一个句子和对应的标签组成的，但是将标签mask掉了。输出要猜mask的内容是什么。

最后作者使用的是：无监督去噪任务进行预训练：对于输入序列中的label加噪声变为<mask>，在输出中重建label。

实验设计

使用的是上半部分的意图分类数据集和下半部分的主题分类数据集作为评估数据集。因为文章的主题是小样本，所以作者对训练机进行了一定的处理。

null

微调部分

微调部分做的是一个类似于意图分类的任务。

输入格式：intent classification: balabala（prefix+utterance）输出：自然语言形式的intent（将label转化为自然语言）

baselines：

XLNet

LM-BFF

seq2eq-PTR

T5

T5（adapt）

实验结果以及消融实验进行的特别多。数据表格有很多，这里就不一一截图了。

补充

null

这个位置我有一个疑惑，因为我没有看懂这个地方的目的是什么。如果大家感兴趣看了这篇文章的话，如果看懂了理解这个地方想表达什么，可以跟我讨论一下。

总结

Introduction

动机

预训练模型常用于对输入进行高效编码，但是很少有工作让模型访问标签的信息表示。

其他的工作只是在微调和预测阶段使用标签语。

所以提出LSAP

“黄金”和“白银”数据稀缺

所以搞了个pipeline处理无标签数据获取“utterance-intent pairs”

贡献

在预训练期间将标签语义合并到生成模型中。

从无标签噪声数据中创建“话语-意图”对，用于标签语义感知预训练。（用于处理“青铜”数据，为无标签文本创建“对话-意图”对）

意图和主题分类数据集SOTA。

Approach

data：

黄金数据：未公开的数据集 + PolyAI Banking，是带label的数据

白银数据：启发式标记数据集WikiHow，是带heuristicallyp-label的数据

青铜数据：伪标记数据，从无标签数据创建utterance-intent pairs。是seudo-label数据

对于无标签数据的处理：

对话过滤器：

并不是所有的对话都是有意图的（goal、intent）。

为了防止给无意图语句加上意图标签从而创造出毒数据影响下游任务，因此先将对话进行二分类（“non-intentful/negative” 和“intentful/positive” ）。

使用Multi-Domain Goal-Oriented Dialogue (MultiDoGO) Schema-guided Dialogue(SGD) 对基于RoBERTa的对话分类器进行调整。

意图生成器：

使用黄金和白银数据微调T5，然后将过滤后的数据丢进去生成意图标签。还产生了37%训练集中没出现的标签。

预训练——label denoising

使用无监督去噪任务进行预训练：对于输入序列中的label加噪声变为<mask>，在输出中重建label。

实验设置

微调：

输入格式：intent classification: balabala（prefix+utterance）

输出：自然语言形式的intent（将label转化为自然语言）

baselines：

XLNet

LM-BFF

seq2eq-PTR

T5

T5（adapt）

版权声明
本文为[InfoQ]所创，转载请带上原文链接，感谢
https://xie.infoq.cn/article/52780fc6eda231cd044991384

边栏推荐

猜你喜欢

随机推荐