当前位置：网站首页>机器学习概念漂移检测方法（Aporia）

机器学习概念漂移检测方法（Aporia）

2022-07-04 16:13:00 【李国冬】

在这里插入图片描述

目前，有多种技术可用于机器学习检测概念漂移的方法。熟悉这些检测方法是为每个漂移和模型使用正确度量的关键。

在本文章中，回顾了四种类型的检测方法：统计、统计过程控制、基于时间窗口和上下文方法。

如果您正在寻找有关概念漂移的介绍，我建议您查看机器学习中的概念漂移一文。

统计方法

统计方法用于比较分布之间的差异。

在某些情况下，会使用散度，这是分布之间的一种距离度量。在其他情况下，运行测试以获得分数。

Kullback-Leibler 散度

Kullback-Leibler 散度有时被称为相对熵。

KL散度试图量化一个概率分布与另一个概率分布有多大不同，所以，如果我们有分布Q和P，其中，Q分布是旧数据的分布，P是我们想要计算的新数据的分布：

$\displaystyle\sum_x{P(x)}*log(\frac{Q(x)}{P(x)})$

其中，“||”代表散度。

我们可以看到，

如果 P(x) 高而 Q(x) 低，则散度将很高。
如果 P(x) 低而 Q(x) 高，则散度也会很高，但不会那么大。
如果 P(x) 和 Q(x) 相似，则散度就会很低。

在这里插入图片描述

JS 散度

Jensen-Shannon 散度使用 KL 散度

$\frac{1}{2}(KL(Q||M) +KL(P||M))$

其中， $\frac{Q+P}{2}$ 是 P 和 Q 之间的平均值。

JS散度和KL散度的主要区别在于JS是对称的，它总是有一个有限值。

在这里插入图片描述

Kolmogorov-Smirnov 检验 (K-S 检验)

两样本 KS 检验是比较两个样本的有用且通用的非参数方法。在 KS 测试中，我们计算：
$D_{n,m}=sup_{x}|F_{1,n}(x) - F_{2,m}(x)|$

其中， $F_{1,n}(x)$ 是先前数据与 $n$ 样本的经验分布函数， $F_{2,m}(x)$ 是新数据与 $m$ 样本和 $F_{n}(x) = \frac{1}{n} \displaystyle\sum_{i=1}^n I_{[- \infty,x]}(X_{i})$ 的经验分布函数， $sup_{x}$ 是使 $F_{1,n}(x) - F_{2,m}(x)|$ 最大化的样本 $x$ 的子集。

KS 检验对两个样本的经验累积分布函数的位置和形状的差异很敏感。它非常适合数值数据。

在这里插入图片描述

何时使用统计方法

统计方法部分的想法是评估两个数据集之间的分布。

我们可以使用这些工具来查找不同时间范围内的数据之间的差异，并衡量随着时间的推移数据行为的差异。

对于这些方法，不需要标签，也不需要额外的内存，我们可以快速获得模型输入特征/输出变化的指标。这将帮助我们甚至在模型的性能指标出现任何潜在下降之前就开始调查这种情况。另一方面，如果没有正确处理，缺少标签和忽视对过去事件和其他特征的记忆可能会导致误报。

统计过程控制

统计过程控制的想法是验证我们模型的误差是否在可控范围内。这在生产中运行时尤其重要，因为性能会随着时间而变化。因此，我们希望有一个系统，如果模型达到了一定错误率，就会发送警报。请注意，某些模型具有“红绿灯”系统，其中也有警告报警。

漂移检测方法/早期漂移检测方法 (DDM/EDDM)

这个想法是将误差建模为二项式变量。这意味着我们可以计算出我们的预期误差值。当我们使用二项式分布时，我们可以标记 $= n p t$ ，因此， $\sigma = \sqrt{\frac{p_{t}(1-p_{t})}{n}}$ 。

DDM

在这里我们可以提出：

当 $p_{t}+\sigma_{t}\ge p_{min} +2\sigma_{min}$ 时发出警告
当 $p_{t}+\sigma_{t}\ge p_{min} +3\sigma_{min}$ 时报警

优点：DDM 在检测逐渐变化（如果它们不是很慢）和突然变化（增量和突然漂移）时表现出良好的性能。

缺点：当变化缓慢时，DDM 难以检测漂移。许多样本可能在漂移水平激活之前储存了很长时间，存在样本储存溢出的风险。

EDDM

在这里，通过测量 2 个连续错误的距离，我们可以提出：

当 $\frac{p_{t}+2{\large \sigma}_{t}}{p_{max}+2{\large \sigma}_{max}}<{\Large \alpha}$ 时发出警告
当 $\frac{p_{t}+2{\large \sigma}_{t}}{p_{max}+2{\large \sigma}_{max}}<{\Large \beta}$ 时发出警报，其中 ${\Large \beta} $ 通常为 0.9

EDDM 方法是 DDM 的修改版本，其重点是识别逐渐漂移。

在这里插入图片描述

CUMSUM 和 Page-Hinckley (PH)

CUSUM 及其变体 Page-Hinckley (PH) 是社区中的开拓方法之一。该方法的想法是提供一种序列分析技术，该技术通常用于监测高斯信号平均值的变化检测。

CUSUM 和 Page-Hinckley (PH) 通过计算观测值与平均值的差异来检测概念漂移，并在该值大于用户定义的阈值时设置漂移警报。这些算法对参数值很敏感，导致在误报和检测真实漂移之间进行权衡。

由于 CUMSUM 和 Page-Hinckley (PH) 用于处理数据流，因此每个事件都用于计算下一个结果：

CUMSUM：

${\large g}_{0}=0, {\large g}_{t}= max(0, {\large g}_{t-1}+{\large \varepsilon}_{t}-{\large v})$ 其中， g 代表事件，或出于漂移目的，模型的输入/输出
当 ${\large g}_{t}>h$ 发出警报，并设置 ${\large g}_{t}=0$
$h, v$ 是可调参数

注意：CUMSUM 是无记忆的、单边的或不对称的，因此它只能检测到值的增加。

Page-Hinckley (PH) ：

${\large g}_{0}=0, {\large g}_{t}= {\large g}_{t-1}+({\large \varepsilon}_{t}-v)$
$G_{t}=min({\large g}_{t},G_{t-1})$
当 $g_{t}-G_{t}>h$ 发出警报，并设置 $g_{t}=0$ 。