当前位置：网站首页>深度学习基础汇总

深度学习基础汇总

2022-06-28 15:15:00 【右边是我女神】

神经网络

模型的发展历程

MP模型是最早的神经网络模型，描述的是一个神经元的工作机制。根据神经元的结构可知：神经元是一个多输入单输出的信息处理单元，并对信息的处理是非线性的。在这个基础上，MP模型应运而生: $y=f(\Sigma_{i}w_ix_i+b)$
其中， $f$ 是激活函数。

感知机模型与MP模型十分类似，其 $f$ 采用了符号函数。

多重感知机模型（MLP）则是神经元的组合与叠加。

前馈神经网络

前馈神经网络是人工神经网络的一种形式，各神经元分层排列，每个神经元只与前一层神经元相连，接收前一层的输出，并输出给下一层，各层间没有反馈。

前馈神经网络又称为全连接神经网络，MLP、BP神经网络就属于常见的前馈神经网络之一。

在这里插入图片描述

激活函数

参考这篇文章，包含Sigmoid、Tanh、ReLU、LReLU、ELU、PReLU、Softmax、Swish。总结如下：

损失函数	优点	缺点
Sigmoid	1. 适合于概率预测模型；2. 连续函数，易于求导	1. 容易造成梯度消失； 2. 非0均值； 3. 涉及指数运算，计算机计算效率低
Tanh	1. 0均值	1. 容易造成梯度消失； 2. 涉及指数运算，计算机计算效率低
ReLU	1. 在 $x\gt0$ 的区域上，不会出现梯度饱和；2. 计算速度快；	1. 输入负数时，梯度为0（Dead ReLU）；2. 非0均值；
LReLU	1. 解决Dead ReLU问题； 2. 继承ReLU的所有优；	1. 继承ReLU的其他缺点
ELU	1. 解决Dead ReLU问题； 2. 接近0均值； 3. 正常梯度接近于自然梯度； 4. 较小输入下趋于饱和，从而对噪声具有鲁棒性	1. 计算强度大
PReLU	1. 继承LReLU的优点； 2. 参数可学习	1. 继承LReLU的缺点
Softmax	1. 适合于多分类的概率预测模型；2. argmax的近似平滑	1. 当输入的方差比较大时，会输出一个接近one-hot的形式，进一步造成了梯度弥散问题
Swish	-	-

Q1:Sigmoid并不是0均值的，为什么这是一个缺点？

可以参考这篇文章。简而言之，所有参数更新方向一致，产生Z型更新现象，使得收敛速度变缓。

Q2:什么是梯度弥散？

源于激活函数的饱和，一旦落入函数的饱和区域，梯度变得非常小。

Q3:Swish的函数形式？
$f(x)=x\cdot sigmoid(\beta x)$
介于线性函数和ReLU函数的平滑函数。

反向传播算法

梯度下降法属于最优化算法，是迭代法的一种，可以用于求解最小二乘问题（线性/非线性）。其公式为: $\gamma\cdot \nabla$

反向传播算法是一种适合于多层神经元网络的学习算法，建立在梯度下降法的基础上。

前馈神经网络的输入和输出关系实质上是一种映射，其信息处理能力来源于简单非线性函数的多次复合。这是BP算法得以应用的基础。

BP算法由正向传播过程和反向传播过程组成。正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。取损失函数作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构造目标函数对权值向量的梯量，作为修改权值的依据。最后进行权重的更新，误差达到所期望值时，学习结束。

梯量的构造遵循链式求导法则，权重的更新遵循梯度下降法。

反向传播的精髓就是梯度！其中的梯度（反映了该变量的变化对目标函数的影响）也大有学问，详细可以参考这份视频。

BP算法依赖于计算图，其举例如下所示：
请添加图片描述

也就是说，在实际算法执行过程中，会求出下一结点对当前结点的梯量，在反向传播的过程中执行链式求导法则，进行梯量的相乘与值的代入。

自动微分是一种计算机求导方式，其分为前向模式和反向模式。以函数 $f = g (h (x))$ 为例，其导数为 $\frac{df}{dx}=\frac{dg}{dh}\frac{dh}{dx}$ 前向模式指的是从右到左地计算导数（计算每一层的状态[函数]和激活值的同时把该结点对变量的偏导数也一并计算），反向模式则相反（与反向传播算法的计算梯度的方式相同：前向计算每一层的状态和激活值；反向计算每一层的参数的偏导数，即目标函数与当前变量的偏导数）。

关于自动微分可以参考这份视频。

这一过程中会构建计算图：静态（构建完成后不再改变）与动态（根据函数结构实时调整）。

模型的训练

数据归一化

归一化的作用：统一模型数量级。

归一化的好处有：便于后续数据处理；加快模型收敛。

这是因为数量级大会带来两个问题：震荡大，模型不稳定；收敛时间长。

常见的方法有：min-max标准化和Z-score。

$x^*=\frac{x-min}{max-min}$

$x^*=\frac{x-\mu}{\sigma}$

这里的归一化是针对初始数据的。

参数初始化

参数初始化的作用在于加快梯度下降收敛的速度。

对称权重问题：如果某一层有K个隐藏单元，其参数矩阵的值都是N，那么这K个映射都是相同的，那么这样一个具有很多隐藏单元的网络结构就是完全多余的表达，最终网络只能学习到一种特征。

解决这一问题的方法为随机初始化。

常见且简单的随机初始化方式有高斯初始化、均匀分布初始化。

这两个初始化方式也有缺陷：

方差过小且权重集中在0附近，如果采用Sigmoid函数会造成梯度爆炸的问题；
方差过大，如果采用Sigmoid函数会造成梯度消失问题。

总而言之，就是权重随机得不均匀。

相应的解决方案有方差缩放与正交初始化（高斯初始化+奇异值分解）。

损失函数

参考这篇文章的总结。

常见的有：01损失函数、绝对值损失函数、对数损失函数、平方损失函数、指数损失函数、合页损失函数、感知损失函数、交叉熵损失函数、Focal损失函数。

说明：

绝对值损失函数和平方损失函数常用于回归问题，但是对噪声敏感、鲁棒性不强；
对数损失函数就是将置信度取个对数的负数，用于逻辑回归，对噪声敏感、鲁棒性不强；
指数损失函数用于Adaboost，对噪声敏感、鲁棒性不强；
合页损失函数用于SVM，其不仅要求分类正确，更要求有一定可信度，对噪声不敏感、鲁棒性强；
感知损失函数把1去掉了，弱化了合页损失函数对可信度的要求；
谈到交叉熵损失函数，就必须要谈及KL散度，或者说相对熵，其度量了两个分布之间的差距，公式为 $D_{KL}(p||q)=\sum_{i}p(x_i)\log\frac{p(x_i)}{q(x_i)}$ 进一步化简可以得到信息熵与交叉熵之和，交叉熵可以说是体现KL散度的一个简化版本。
聚焦损失函数是交叉熵损失函数的增强版本，其目的是自适应地使模型关注困难样本，潜在地解决了正负样本不平衡问题。

模型优化

所谓模型优化，是找到一个参数，使得经验风险/结构风险最小化。

传统机器学习常常面对的是一个凸优化问题。而深度学习所面对的是非凸优化问题。直观来看，两者的区别如下：
请添加图片描述

优化的难点有：参数多，影响训练；非凸优化求解；梯度消失；参数难以解释。

直观来看，优化的过程是在损失函数的曲面上找到一个最优位置。然而损失函数的曲面通常是很复杂的。可视化来看如下所示。

请添加图片描述
所谓梯度消失，指的是落入了曲面当中的某一平坦区域。另外，在这一曲面上训练也很容易陷入局部最优的境地。

值得一提的是跳跃连接能够使曲面光滑。请添加图片描述

常见的优化算法可以参考这篇文章，主要介绍了BGD、SGD、MBGD、SGD+Momentum、Nesterov加速梯度、AdaGrad、AdaDelta、RMSprop、Adam。

说明：

BGD、SGD、MBGD都是梯度下降法，不过是计算梯度的依据不一样，分别为全部训练集、某一个样本以及某一堆样本；
Momentum的更新公式还是梯度下降法，不过那个导数需要加上上一时刻的导数；
Adagrad、AdaDelta、RMSprop、Adam都是自适应算法，是对梯度的一个动态调整；
Adagrad只是将梯度除上了 $\sqrt{\sum_{i=1}^tg_t^2+\epsilon}$ ，好处在于前期分母小，速度快，后期分母大，速度慢；
AdaDelta不再是简单地求了个梯度的平方和，而是加权的 $n_t=v\times n_{t-1}+(1-v)\times g_t^2$ ;此外，AdaDelta还把学习率换成了 $\rho E[\Delta\theta]_{t-2}+(1-\rho)\Delta\theta_{t-1}^2$ ，这样就没必要考虑学习率了，自己学就完事了。
RMSprop是AdaDelta的简化版本，保留了原始的学习率；
Adam就是带有动量项的RMSprop；