当前位置：网站首页>深度学习系列（二）优化器（Optimization）

深度学习系列（二）优化器（Optimization）

2022-08-05 05:16:00 【yiyexy】

机器学习系列（二）优化器（Optimization）

梯度下降
随机梯度下降
批量梯度下降法

梯度下降

在上一节中，我们已经提到了，我们最终估计一个模型他的拟合程度是通过成本函数计算结果来判断的。
因此我们很容易知道，当成本函数达到最小值时，我们的模型就达到了最优。因此，我们更新参数的目标应该是朝着减少成本函数值的方向前进。
这里我们可以用到一个数学上的概念去求成本函数的最小值。通过梯度来求解。当我们根据成本函数L求得了对参数W的偏导时，便可以根据公式：W := W- $\alpha$ dW 对参数W进行更新。
其中， $\alpha$ 称为学习率，实际上你可以理解为W朝着梯度下降方向行走的步长。这里面梯度下降的具体原理，不过多解释，我们主要关注的是梯度下降的数据量问题。
在我们正常的模型训练中，我们通常是将所有样本放在一个矩阵中进行训练，但是当我们的数据集特别大的时候，往往会遇到这样的问题，每进行一次的梯度下降，我们就需要对所有样本集中求一次梯度。因此正确的参数更新如下：
在这里插入图片描述
因此，当我们的样本数量很大时，每一次迭代都会花费大量时间，这对电脑内存和时间都是个不小的压力。

随机梯度下降

针对上面的问题，有人就提出了随机梯度下降法（SGD，Stochastic Gradient Descent）。所谓的随机梯度下降，就是指每一次梯度下降，都不再是求出所有样本的平均损失值来进行梯度下降，而是随机选择一个样本进行训练，根据这个样本的损失值进行梯度下降。
这个方法听上去似乎解决了大内存的问题，但是实际上，这个方法有很多的弊端，首先迭代次数过多，参数修改过于频繁；其次，每次梯度下降都是根据一个样本的值进行的，而一个样本的值计算出来的梯度可能会有误差，导致了参数向着相反的方向前进。
因此，随机梯度下降法并不能很好的解决梯度下降问题，人们结合这两种方法的各自有缺点提出了批量梯度下降法的概念。