当前位置：网站首页>深度学习(增量学习)——(ICCV)Striking a Balance between Stability and Plasticity for Class-Incremental Learning

深度学习(增量学习)——(ICCV)Striking a Balance between Stability and Plasticity for Class-Incremental Learning

2022-07-28 05:22:00 【菜到怀疑人生】

文章目录

前言
Method
实验
思考

前言

这篇文章发表于ICCV2021，是一篇结合自监督做增量学习的文章，该论文研究的问题为class Incremental

本文将总结论文提出的方法，并对实验部分做个简单分析，最后讲讲我对这篇文章的看法

Method

本文一共有三种方法，分别为SPB、SPB-I、SPB-M，本文将依次介绍三者

SPB

SPB就是UCIR的变种，当task T的训练数据到来时，作者利用特征提取器提取task T训练数据的embedding，对embedding进行normalization（应该是L2归一化），归一化后同一类的embedding取平均值得到class prototype，利用class prototype初始化分类器（单层FC层）的对应权重，举个例子，分类器（单层FC层）可以看成是一个矩阵 $C * D$ 的矩阵， $D$ 为特征提取器的输出维度， $C$ 为类别数，当新的 $N$ 个类别到来时，矩阵大小扩充为 $(C + N) * D$ ，多出的 $N$ 行就用上述方式进行初始化。

设特征提取器对第 $i$ 张图片的输出为 $f(x_i)$ ，L2归一化后为 $\overline{f(x_i)}$ ，分类器中第 $c$ 类对应的权重为 $w_c$ （即上述例子中矩阵的第 $c$ 行），L2归一化为 $\overline {w_c}$ ，则分类器第 $c$ 类的输出为
$P_c(x_i)=\frac{\exp(\lambda \overline{f(x_i)}^T \ \overline{w_c})}{\sum_j \exp(\lambda \overline{f(x_i)}^T \ \overline{w_j}))}\tag{1.0}$
其中 $\lambda$ 为超参数。该论文通过特征层面进行知识蒸馏，从而防止遗忘。针对图像 $x_i$ ，旧特征提取器的输出L2归一化后为 $\overline{f^o(x_i)}$ ，新特征提取器的输出L2归一化后为 $\overline{f^n(x_i)}$ ，则知识蒸馏loss为
$L_{em}=||\overline{f^n(x_i)}-\overline{f^o(x_i)}||^2\tag{2.0}$

设交叉熵损失函数为 $L_{ce}$ ，旧类别个数为 $N_{oc}$ ，新类别个数为 $N_{nc}$ ，则SPB的总体loss为

$L=\frac{N_{nc}}{N_{oc}}L_{ce}+\frac{N_{oc}}{N_{nc}}L_{em}\tag{3.0}$

随着学习类别数的增多， $L_{em}$ 的权重会越来越大，从而防止遗忘。

SPB并没有提出什么新东西

SPB-I

SPB-I在SPB的基础上引入了自监督，通过自监督编码一些冗余特征，这些冗余特征可能可以用于构建新任务，SPB-I引入了两类自监督任务，一类是对比学习，一类是旋转预测，这两类任务其实都是在构建更为鲁棒的特征空间，并没有解决灾难性遗忘的问题。

对比学习

给定一张图像，作者对其施加 $N$ 次数据增强，数据增强前后的图像构成正例对，不同图像之间构成负例对，特征提取器的输出会经过一个双层FC层（记为 $\delta$ ），则对比学习loss为
$L_{in}=\sum_{i}\frac{\exp(\lambda \overline{\delta(f(x_i))}^T \ \overline{\delta(f(x^{'}_i))}/T)}{\sum_{x_j \in{\{x^{ng},x'_i\}}} \exp(\lambda \overline{\delta(f(x_j))}^T \ \overline{\delta(f(x_i))}/T)}\tag{4.0}$

$x^{ng}$ 表示图像 $x_i$ 的负例集合， $x^{'}_i$ 是 $x_i$ 数据增强的结果。

旋转预测

一张图像经过一定旋转后，输入到特征提取器，特征提取器的输出（没有经过全局池化）经过两个residual BasicBlocks以及cosine classifier处理，图像旋转的角度一共有 ${0^。、90^。、180^。、270^。\}$ 四种，模型需要预测图像旋转的角度，即进行四分类。默认情况下，SPB-I使用该监督任务。

SPB-M

SPB-M是SPB的改版（不是SPB—I），图像在输入模型前会进行旋转，旋转角度共有 $\gamma$ 种，每种旋转角度都有对应的分类器，旋转90度和270度的分类器是不同的，意味着一共有 $\gamma$ 个分类器，这 $\gamma$ 个分类器分别进行分类预测，对应的损失函数为
$L_{mp}=\frac{1}{\gamma}\sum_{b=1}^\gamma L_{ce}^b\tag{5.0}$

$L_{em}$ 为前文提到的知识蒸馏函数，总的损失函数为

$L=\frac{N_{nc}}{N_{oc}}L_{mp}+\frac{N_{oc}}{N_{nc}}L_{em}\tag{6.0}$

实验

该论文基于data free，不会存储旧数据，与其他method在CIFAR100和imagenet-subset上的结果如下：
在这里插入图片描述
在初始阶段，论文提出的方法比所有的baseline都要高出4%~8%，一般而言，初始阶段有1%~2%的浮动是正常的，这篇文章的初始浮动这么大，足以说明实验存在问题，但貌似审稿人没有发现这个致命问题。

由于用到了额外的数据增强，模型的性能提升可能来源于数据增强，作者也注意到了这点，因此做了如下消融实验
在这里插入图片描述
依据第一大格，作者验证了单独使用自监督的数据增强并不能提升模型性能，证明了性能提升主要来源于自监督

思考

本文的实验部分存在一些问题，和《深度学习(增量学习)——ICCV2022：Contrastive Continual Learning》不同，这篇论文并没有实验指出自监督在增量学习中扮演的角色，有一股很浓的A+B论文的味道，这不是很合本人的胃口，但总体上的确显示出自监督有助于构建更为鲁棒的特征空间。

原网站

版权声明
本文为[菜到怀疑人生]所创，转载请带上原文链接，感谢
https://blog.csdn.net/dhaiuda/article/details/120880927