当前位置：网站首页>【自然语言处理】【向量表示】AugSBERT：改善用于成对句子评分任务的Bi-Encoders的数据增强方法

【自然语言处理】【向量表示】AugSBERT：改善用于成对句子评分任务的Bi-Encoders的数据增强方法

2022-07-25 22:41:00 【BQW_】

AugSBERT：改善用于成对句子评分任务的Bi-Encoders的数据增强方法《Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks》

论文地址：https://arxiv.org/pdf/2010.08240.pdf

一、简介

句子对评分任务在 $\text{NLP}$ 中被广泛使用。其可以被用于信息检索、问答、重复问题检测和聚类。对于许多包含句子对评分任务达到sota的方法是使用 $\text{BERT}$ 。两个句子被传递至网络中，并且注意力机制被应用在所有的输入tokens中。这种两个句子被同时传递至网络中的方法称为cross-encoder。

cross-encoder的一个缺点是对于许多任务来说计算量太大。例如，对10000个句子进行聚类，cross-encoder需要 $n^2$ 的复杂度，使用 $\text{BERT}$ 的话需要65个小时。端到端的信息检索也不太可能使用cross-encoder，因为其不能够为输入返回独立的表示，用于被索引。作为对比，像 $\text{Sentence BERT}$ 这样的bi-encoder独立编码句子，并将其映射至稠密向量空间。这样就可以有效的索引和比较。例如，10000个句子的聚类复杂度从65个小时减少到5秒。许多真实世界中的应用依赖于bi-encoders的质量。

请添加图片描述

bi-encoder的缺点是效果差于cross-encoder。上图是作者在流行的英文 $\text{STS}$ 基准数据集上比较微调的cross-encoder(BERT)和微调的bi-encoder(SBERT)。

当仅有很少训练数据可用时的效果差距最大。BERT cross-encoder能够同时比较两个输入，而SBERT bi-encoder必须要解决更具挑战性的任务，将输入独立映射至有意义的向量空间，这需要足够数量的训练样本进行微调。

在本文中，作者呈现了一个数据增强方法，其称为 $\text{Augmented SBERT(AugSBERT)}$ ，其使用BERT cross-encoder来改善SBERT bi-encoder的表现。具体来说，使用cross-encoder来标注新的输入样本对，其会被添加至bi-encoder的训练集合中。SBERT bi-encoder在更大的增强训练集上进行微调，其能够显著改善效果。正如作者所示，选择用于cross-encoder进行软标注的输入样本对，对改善效果来说至关重要。本文的方法可以简单的应用在许多成对分类任务和回归问题中。

首先，作者在4个任务中评估了提出的 $\text{AugSBERT}$ 方法： $\text{Argument similarity}$ 、 $\text{semantic textual similarity}$ 、 $\text{duplicate question detection}$ 和 $\text{news paraphrase identification}$ 。可以观察到，相对于目前效果最好的 $\text{SBERT bi-encoder}$ ，能够增加百分之1到6个点。其次，作者展示了 $\text{AugSBERT}$ 在领域适应中的优势。由于bi-encoder不能将新的领域映射至可感知的空间，与 $\text{BERT cross-encoders}$ 相比， $\text{SBERT bi-encoder}$ 在目标域上的效果要下降的更多。在这种场景中， $\text{AugSBERT}$ 实现了37个百分点的效果增长。

二、Augmented SBERT

给定一个预训练的、且效果很好的cross-encoder，通过特定的采样策略来采样句子对并使用交叉编码器进行标注。将这些弱标注的样本称为silver dataset，并将它们合并至原始的训练数据集中。基于扩展后的训练集来训练bi-encoder。我们将这个模型称为 $\text{Augmented SBERT(AugSBERT)}$ 。整个过程如上图所示：

1. 样本对采样策略

使用cross-encoder标注的新样本对可以是新数据、也可以重新利用训练集中独立的句子来合成。在本文的实验中，重新利用原始训练集中的句子。这当然是在不是所有的组合都并标注的情况下才是可能的。然而，这种情况很少发生，因为对于 $n$ 个句子则有 $n\times (n-1)/2$ 种可能的合并方案。将所有可能的合并样本进行弱标注可能会带来极大的计算量，并且可能并不会带来效果改善。相反，采用正确的采样策略对于改善效果至关重要。

Random Sampling(RS)
随机采样一个句子对并使用cross-encoder进行弱标注。随机采样两个句子通常会带来不相似样本对，正样本对非常的少。这种有偏标签分布使得silver dataset严重倾向于负样本。
Kernel Density Estimation(KDE)
目标是使得silver dataset的标签分布类似于原始的训练集。为此，作者使用弱标注的方式标注了大量的随机采样样本对，然后仅保留其中的部分样本对。对于分类任务，作者保留所有的正样本对。随后从余下的随机负样本对中采样一部分负样本对，使其正负比例与原始训练集相一致。对于回归任务，使用核密度估计 $\text{(kernel density estimation,KDE)}$ 来估计针对分数 $s$ 的连续密度函数 $F_{gold}(s)$ 和 $F_{silver}(s)$ 。然后，使用一个以概率 $Q (s)$ 保留采样分数 $s$ 的采样函数来最小化两个函数间的 $\text{KL}$ 散度。
$\begin{cases} 1\quad if \;F_{gold}(s)\geq F_{silver}(s) \\ \frac{F_{gold}(s)}{F_{silver}(s)}\quad if\;F_{gold}(s)< F_{silver}(s) \end{cases}$
注意， $\text{KDE}$ 采样策略的计算效率比较低，因为它需要标注许多随机样本，而这些样本随后可能被丢弃。
BM25 Sampling(BM25)
在信息检索中， $\text{Okapi BM25}$ 算法是基于词法重叠的，并且常被用于许多搜索引擎的评分函数。作者利用 $\text{ElasticSearch}$ 来创建索引，用来更快的检索query相关的结果。在作者的实验中，对每个句子都建立的索引，且每个query都会检索 $\text{top-k}$ 相似的句子。随后会使用cross-encoder来标注这些样本对。建立索引和检索相似句子效率高，并且所有弱标注的样本对都会被用于silver dataset。
Sematic Search Sampling(SS)
$\text{BM25}$ 的一个缺点是，仅有单词覆盖的语句才会被发现。没有或者很少有重叠单词的同义句子并不会被返回，因此也不会称为silver dataset的一部分。作者在原始训练集上训练了一个bi-encoder，并使用其进一步采用相似句子对。作者使用 $\text{cosine}$ 相似度并检索最相似的 $\text{top k}$ 句子。对于规模较大的数据，则使用类似 $\text{Faiss}$ 的近似最近邻来快速检索最相似的 $k$ 个句子。
BM25+Semantic Search Sampling(BM25-S.S.)
同时使用 $\text{BM25}$ 和语言检索策略 $\text{SS}$ 。聚合两个策略有助于捕获词法和语义相似的句子，但会使标签分布倾向于负样本对。

2. 种子优化

$\text{Dodge}$ 等人的研究显示，像 $\text{BERT}$ 这样基于 $\text{Transformers}$ 的模型高度的依赖随机数种子，因为其收敛到不同的最小值，则会以不同的方式扩展至未见过的数据。在本文的实验中，作者应用了种子优化 $\text{(seed optimization)}$ ：使用5个随机数种子训练模型，并选择在验证集上表现最好的模型。为了加速这个过程，在训练step的20%应用early stopping，仅继续训练表现最好的模型直至结束。

三、 $\text{AugSBERT}$ 的领域适应

目前为止，讨论 $\text{AugSBERT}$ 都是在领域内的设置中，即当训练集和测试集来自相同的领域。然而，作者期望 $\text{SBERT}$ 在领域外数据具有更高的表现。这是因为 $\text{SBERT}$ 不能将未见过的句子映射至有意义的空间。不幸的是，新领域的标注数据通常是不可用的。

因此，作者评估了提出的数据增强策略对于领域适应的效果：先在包含标注数据的源领域数据上训练cross-encoder。在微调后，使用微调的cross-encoder来标注目标域。一旦标注完成，在标注的目标域句子对上训练bi-encoder。