当前位置：网站首页>浅谈Label Smoothing技术

浅谈Label Smoothing技术

2022-07-05 09:01:00 【aelum】

作者简介：非科班转码，正在不断丰富自己的技术栈
️ 博客主页：https://raelum.blog.csdn.net
主要领域：NLP、RS、GNN
如果这篇文章有帮助到你，可以关注️ + 点赞 + 收藏 + 留言，这将是我创作的最大动力

在这里插入图片描述

一、从 One-Hot 到 Label Smoothing

考虑单个样本的交叉熵损失

$H(p,q)=-\sum_{i=1}^C p_i\log q_i$

其中 $C$ 代表类别个数， $p_i$ 是真实分布（即 target）， $q_i$ 是预测分布（即神经网络输出的 prediction）。

如果真实分布采用传统的 One-Hot 向量，则其分量非 $0$ 即 $1$ 。不妨设第 $k$ 个位置是 $1$ ，其余位置是 $0$ ，此时交叉熵损失变为

$H(p,q)=-\log q_k$

从上面的表达式不难发现一些问题：

真实标签跟其他标签之间的关系被忽略了，一些有用的知识无法学到；
One-Hot 倾向于让模型过度自信（Overconfidence），容易造成过拟合，进而导致泛化性能降低；
误标注的样本（即 target 错误）更容易对模型的训练产生影响；
One-Hot 对 “模棱两可” 的样本表征较差。

缓解这些问题的方法就是采用 Label Smoothing 的技术，它也是一种正则化的技巧，具体如下：

$p_i:= \begin{cases} 1-\epsilon,& i=k \\ \epsilon/(C-1),&i\neq k\\ \end{cases}$

其中 $\epsilon$ 是一个小正数。

例如，设原始 target 为 $[0, 0, 1, 0, 0, 0]$ ，取 $\epsilon=0.1$ ，则经过 Label Smoothing 后 target 变为 $[0.02, 0.02, 0.9, 0.02, 0.02, 0.02]$ 。

原始的 One-Hot 向量通常称为 Hard Target（或 Hard Label），经过标签平滑后通常称为 Soft Target（或 Soft Label）

二、Label Smoothing 的简单实现

import torch


def label_smoothing(label, eps):
    label[label == 1] = 1 - eps
    label[label == 0] = eps / (len(label) - 1)
    return label


a = torch.tensor([0, 0, 1, 0, 0, 0], dtype=torch.float)
print(label_smoothing(a, 0.1))
# tensor([0.0200, 0.0200, 0.9000, 0.0200, 0.0200, 0.0200])