当前位置:网站首页>深度学习理论课程第四、五章总结

深度学习理论课程第四、五章总结

2022-08-03 05:23:00 拟拟

目录

第四章        正则化

4.1        过拟合

4.2        数据增强

4.3      L1与L2正则   

4.4        Dropout

4.5        提前终止

4.6        随即池化

第五章        优化器

实践案例        从感知机到卷积神经网络



第四章        正则化

4.1        过拟合

过拟合:模型中训练误差(经验误差)较小,但泛化误差(测试误差)较大。

产生过拟合的原因:模型学习能力(模型容量)与数据复杂度之间失配。数据噪声干扰过大,训练样本太少,无法描述问题的真实分布,模型复杂度过高。

解决方法:减少特征维度;正则化(数据增强、参数范数惩罚、Dropout、提前终止)等等。

欠拟合:模型训练误差很大。

产生欠拟合的原因:特征量过少,模型复杂度过低,不能学习到数据的“一般规律”。

解决方法:增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;添加多项式特征;减少正则化参数(正则化的目的是用来防止过拟合的,出现欠拟合可以减少正则化参数)。

4.2        数据增强

数据增强:在模型中增加训练数据样本。

作用:有效的防止过拟合。

在训练时对模型进性噪声输入,可以训练模型的抗噪能力,防止模型过拟合。

在输入层加入噪声:数据增强、在隐藏层加入噪声:Dropout、在输出层加入噪声:标签平滑。

4.3      L1与L2正则   

L1与L2正则可以限制模型的学习能力,使模型学习能力降低,从而解决模型的过拟合问题。

L1正则与L2正则对比:L1正则能够产生更加稀疏的模型,当L1正则在参数w比较小时,能够直接缩减至0,因此可以起到特征选择的作用。从概率的角度进行分析,很多范数约束相当于对参数添加先验分布,其中L2范数相当于参数服从高斯先验分布;L1范数相当于拉普拉斯分布。

4.4        Dropout

Dropout:一类通用并且计算简洁的正则化方法。在训练过程中,随即丢弃一部分输入,此时丢弃部分对应的参数不会更新。类似一个集成方法,将所有子网络结果进行合并,通过随机丢弃输入可以得到各种子网络。

作用:取平均的作用;减少神经元之间的复杂的共适应关系;Dropout类似与性别在生物进化中的角色。

工作流程:

4.5        提前终止

提前终止:在训练过程中,插入对验证集数据的测试。当发现验证集数据的Loss上升时,提前停止训练。

4.6        随即池化

池化的意义:对数据进性降采样操作。

作用:特征不变性(使模型更关注包含一定的自由度,能容忍特征微小的位移);特征降维(降采样使后续操作的计算量得到减少);一定程度防止过拟合。

池化层的常规操作:最大值池化,均值池化,随即池化,中值池化,组合池化等。

最大池化:能学习到图像的边缘和纹理结构。

均值池化:减小估计均值的偏移,提升模型的鲁棒性。

随即池化:按一定概率随机选取其中的一个元素,介于平均池化与最大池化之间,受Dropout启发,有更好的正则化效果。

第五章        优化器

常见优化器:SGD、Momentum、Adagrad、Adadelta、RMSprop、Adam。

梯度下降:

全局梯度下降:采用整个训练集的数据进行计算梯度。

缺点:一次更新中对整个数据及计算梯度,计算很慢,不适用于进入新的模型进行计算。

随机梯度下降:SGD每次更新时对每个样本进行梯度更新,对于很大的数据集来说,可能会有很相似的样本,而SGD一次只进行一次更新,没有冗余,速度快,可以新增样本。

缺点:更新频繁,会严重震荡,准确度下降。

小批量梯度下降法:每次利用小批样本,降低参数更新的方差,利用高度有花的矩阵进行梯度计算。

缺点:无法保证收敛;learning rate太小,收敛慢,learning rate太大,loss function会在极小值处动荡偏离。对于非凸函数,可能陷入局部极小,或者鞍点。

Momentum:动量优化算法。

Adagrad:梯度的值趋向于零时,算法失去学习效果,训练可能会提早结束。

Adadelta是Adagrad的扩展,可以有效地减少摆动。

RMSprop:偏置校正后,每个迭代学习率都有确定范围,参数较平稳。

如何选择合适的优化器:

数据稀疏:选择自适应的优化器,如:Adagrad、Adadelta、RMSprop、Adam。

梯度稀疏:Adam比RMSprop效果更好。

总而言之,Adam优化器应用范围更广,比较常用。

实践案例        从感知机到卷积神经网络

训练100次

训练轮次为100次时,模型的准确率只有79%,继续进性训练,当训练400次时,模型的准确率达到94%,继续训练模型的准确率区于稳定,增长幅度非常慢。

训练400次

 

 

 

 

深度学习理论课程:AI Gallery-开发者-华为云 (huaweicloud.com)


原网站

版权声明
本文为[拟拟]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_64263318/article/details/125813905