当前位置：网站首页>机器学习强基计划0-5：为什么学习的本质是泛化能力？

机器学习强基计划0-5：为什么学习的本质是泛化能力？

2022-07-28 10:45:00 【Mr.Winter`】

0 写在前面

机器学习强基计划聚焦深度和广度，加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理；“广”在分析多个机器学习模型：决策树、支持向量机、贝叶斯与马尔科夫决策、强化学习等。

详情：机器学习强基计划

在数据集核心知识串讲，构造方法解析中我们提到模型适用于样本空间中新样本的能力称为泛化(generalization)，本节我们重点讨论一下机器学习模型中的泛化为什么这么重要。

1 拟合问题

机器学习算法的目标是在已知训练误差和测试误差的前提下，尽可能拟合真实规律以减小泛化误差。在拟合过程中主要有两种现象：

欠拟合(underfitting)：指学习算法缺乏对采样数据规律的认识导致训练误差和泛化误差都较大的现象，欠拟合容易通过增加学习强度克服；
过拟合(overfitting)：指学习算法对采样数据规律过度拟合导致将数据集个性化特征当做一般性特征，从而造成训练误差小但泛化误差大的现象。

过拟合是机器学习领域的“一生之敌”，简单来说，过拟合相当于学习器学魔怔了，只会死读书，做课本上的题(我们给定的训练集)，到考场上遇到新的题目(测试集或新样本)就懵逼了。这样的学习器有用吗？那自然是没用的，我们需要的是用有限样本预测尽可能多未知样本的学习器。

那过拟合能解决吗？答案是：过拟合无法克服只能缓解

原因是机器学习算法面对的通常是NP类问题——在多项式时间内无法求解的问题。若能够克服过拟合，则通过对训练误差的最小化就可在多项式时间内计算NP类问题的最优解，换句话说机器学习就解决了世纪难题，证明了P=NP，而学界趋向于P≠NP的论断，因此认为过拟合无法克服。

在这里插入图片描述

2 泛化能力

过拟合的反面就是泛化——模型适用于样本空间中新样本的能力。

不管是人的学习还是机器的学习，其最高境界是什么？透过现象看本质，把握规律。

举例：物体的运动各式各样，纷繁复杂，我们总结出了牛顿三大定律，这就是我们从物体运动中学到的模型，它拥有非常强大的预测能力，在低速领域任何物体的运动预测都可以利用牛顿定律。

这个就是泛化，牛顿定律很好适应了新样本。在这个例子中，如果没有总结出牛顿定律，而是针对每个物体的每种运动都做一套特异性的模型，那就是过拟合，因为再来一个从未见过的模型，或者从未见过的运动，我们必须为它再重新总结模型。

所以，学习的本质是在总结规律，而不是复制数据，这就是泛化思想的重要所在，没有泛化性的指导，任凭模型过拟合，将导致无数学术垃圾的产生。

3 偏差-方差窘境

衡量泛化性能的指标称为泛化误差，泛化误差可视为偏差、方差和噪声的组合，证明如下。

对一个给定训练集 $X$ 会产生一个模型 $f_X$ ，而机器学习模型需要多次使用相同规模的不同训练集进行训练，并取平均性能：
$\bar{f}\left( \boldsymbol{x} \right) =\mathbb{E} _X\left[ f_X\left( \boldsymbol{x} \right) \right]$

由于泛化误差无法直接求取，通常将测试误差近似视为泛化误差(这里采用均方误差)：

$err_g=\mathbb{E} _X\left[ \left( f_X\left( \boldsymbol{x} \right) -y_X \right) ^2 \right]$

其中 $y_X$ 是测试样本 $x$ 在测试集中的标签。进一步：

$\begin{aligned} err_g=\mathbb{E} _X\left[ \left( f_X\left( \boldsymbol{x} \right) -\bar{f}\left( \boldsymbol{x} \right) +\bar{f}\left( \boldsymbol{x} \right) -y_X \right) ^2 \right] \\ =\mathbb{E} _X\left[ \left( f_X\left( \boldsymbol{x} \right) -\bar{f}\left( \boldsymbol{x} \right) \right) ^2 \right] +\mathbb{E} _X\left[ \left( \bar{f}\left( \boldsymbol{x} \right) -y_X \right) ^2 \right] +2\mathbb{E} _X\left[ \left( \bar{f}\left( \boldsymbol{x} \right) -y_X \right) \left( f_X\left( \boldsymbol{x} \right) -\bar{f}\left( \boldsymbol{x} \right) \right) \right] \end{aligned}$

其中交叉项

$\begin{aligned} \mathbb{E} _X\left[ \left( \bar{f}\left( \boldsymbol{x} \right) -y_X \right) \left( f_X\left( \boldsymbol{x} \right) -\bar{f}\left( \boldsymbol{x} \right) \right) \right] =\mathbb{E} _X\left[ \bar{f}\left( \boldsymbol{x} \right) f_X\left( \boldsymbol{x} \right) -\bar{f}^2\left( \boldsymbol{x} \right) -f_X\left( \boldsymbol{x} \right) y_X+\bar{f}\left( \boldsymbol{x} \right) y_X \right] \\=\bar{f}\left( \boldsymbol{x} \right) \mathbb{E} _X\left[ f_X\left( \boldsymbol{x} \right) \right] -\bar{f}^2\left( \boldsymbol{x} \right) -\mathbb{E} _X\left[ f_X\left( \boldsymbol{x} \right) y_X \right] +\bar{f}\left( \boldsymbol{x} \right) \mathbb{E} _X\left[ y_X \right] \\{\xlongequal[\text{独立于训练模型}f]{\text{测试样本标签}y_X}}\bar{f}^2\left( \boldsymbol{x} \right) -\bar{f}^2\left( \boldsymbol{x} \right) -\mathbb{E} _X\left[ f_X\left( \boldsymbol{x} \right) \right] \mathbb{E} _X\left[ y_X \right] +\bar{f}\left( \boldsymbol{x} \right) \mathbb{E} _X\left[ y_X \right] \\=0 \end{aligned}$

引入测试样本的真实标记 $y$ ，从而

$err_g=\mathbb{E} _X\left[ \left( f_X\left( \boldsymbol{x} \right) -\bar{f}\left( \boldsymbol{x} \right) \right) ^2 \right] +\mathbb{E} _X\left[ \left( \bar{f}\left( \boldsymbol{x} \right) -y+y-y_X \right) ^2 \right] \\=\mathbb{E} _X\left[ \left( f_X\left( \boldsymbol{x} \right) -\bar{f}\left( \boldsymbol{x} \right) \right) ^2 \right] +\mathbb{E} _X\left[ \left( \bar{f}\left( \boldsymbol{x} \right) -y \right) ^2 \right] +\mathbb{E} _X\left[ \left( y-y_X \right) ^2 \right] +2\mathbb{E} _X\left[ \left( \bar{f}\left( \boldsymbol{x} \right) -y \right) \left( y-y_X \right) \right]$

其中交叉项

$\mathbb{E} _X\left[ \left( \bar{f}\left( \boldsymbol{x} \right) -y \right) \left( y-y_X \right) \right] {[ \xlongequal[\text{独立于训练模型}f]{\text{测试样本标签}y_X}}\mathbb{E} _X\left[ \bar{f}\left( \boldsymbol{x} \right) -y \right] \mathbb{E} _X\left[ y-y_X \right] \\{ \xlongequal[]{\text{假设噪声期望为}0}}0$

记模型在不同训练集下的方差 $var\left( \boldsymbol{x} \right) =\mathbb{E} _X\left[ \left( f_X\left( \boldsymbol{x} \right) -\bar{f}\left( \boldsymbol{x} \right) \right) ^2 \right]$ 、模型偏差期望 $bias^2\left( \boldsymbol{x} \right) =\mathbb{E} _X\left[ \left( \bar{f}\left( \boldsymbol{x} \right) -y \right) ^2 \right]$ 、数据集噪声期望为 $\varepsilon ^2=\mathbb{E} _X\left[ \left( y-y_X \right) ^2 \right]$