当前位置:网站首页>深度学习理论课程第四、五章总结
深度学习理论课程第四、五章总结
2022-08-03 05:23:00 【拟拟】
目录
第四章 正则化
4.1 过拟合
过拟合:模型中训练误差(经验误差)较小,但泛化误差(测试误差)较大。
产生过拟合的原因:模型学习能力(模型容量)与数据复杂度之间失配。数据噪声干扰过大,训练样本太少,无法描述问题的真实分布,模型复杂度过高。
解决方法:减少特征维度;正则化(数据增强、参数范数惩罚、Dropout、提前终止)等等。
欠拟合:模型训练误差很大。
产生欠拟合的原因:特征量过少,模型复杂度过低,不能学习到数据的“一般规律”。
解决方法:增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;添加多项式特征;减少正则化参数(正则化的目的是用来防止过拟合的,出现欠拟合可以减少正则化参数)。
4.2 数据增强
数据增强:在模型中增加训练数据样本。
作用:有效的防止过拟合。
在训练时对模型进性噪声输入,可以训练模型的抗噪能力,防止模型过拟合。
在输入层加入噪声:数据增强、在隐藏层加入噪声:Dropout、在输出层加入噪声:标签平滑。
4.3 L1与L2正则
L1与L2正则可以限制模型的学习能力,使模型学习能力降低,从而解决模型的过拟合问题。
L1正则与L2正则对比:L1正则能够产生更加稀疏的模型,当L1正则在参数w比较小时,能够直接缩减至0,因此可以起到特征选择的作用。从概率的角度进行分析,很多范数约束相当于对参数添加先验分布,其中L2范数相当于参数服从高斯先验分布;L1范数相当于拉普拉斯分布。
4.4 Dropout
Dropout:一类通用并且计算简洁的正则化方法。在训练过程中,随即丢弃一部分输入,此时丢弃部分对应的参数不会更新。类似一个集成方法,将所有子网络结果进行合并,通过随机丢弃输入可以得到各种子网络。
作用:取平均的作用;减少神经元之间的复杂的共适应关系;Dropout类似与性别在生物进化中的角色。
工作流程:
4.5 提前终止
提前终止:在训练过程中,插入对验证集数据的测试。当发现验证集数据的Loss上升时,提前停止训练。
4.6 随即池化
池化的意义:对数据进性降采样操作。
作用:特征不变性(使模型更关注包含一定的自由度,能容忍特征微小的位移);特征降维(降采样使后续操作的计算量得到减少);一定程度防止过拟合。
池化层的常规操作:最大值池化,均值池化,随即池化,中值池化,组合池化等。
最大池化:能学习到图像的边缘和纹理结构。
均值池化:减小估计均值的偏移,提升模型的鲁棒性。
随即池化:按一定概率随机选取其中的一个元素,介于平均池化与最大池化之间,受Dropout启发,有更好的正则化效果。
第五章 优化器
常见优化器:SGD、Momentum、Adagrad、Adadelta、RMSprop、Adam。
梯度下降:
全局梯度下降:采用整个训练集的数据进行计算梯度。
缺点:一次更新中对整个数据及计算梯度,计算很慢,不适用于进入新的模型进行计算。
随机梯度下降:SGD每次更新时对每个样本进行梯度更新,对于很大的数据集来说,可能会有很相似的样本,而SGD一次只进行一次更新,没有冗余,速度快,可以新增样本。
缺点:更新频繁,会严重震荡,准确度下降。
小批量梯度下降法:每次利用小批样本,降低参数更新的方差,利用高度有花的矩阵进行梯度计算。
缺点:无法保证收敛;learning rate太小,收敛慢,learning rate太大,loss function会在极小值处动荡偏离。对于非凸函数,可能陷入局部极小,或者鞍点。
Momentum:动量优化算法。
Adagrad:梯度的值趋向于零时,算法失去学习效果,训练可能会提早结束。
Adadelta是Adagrad的扩展,可以有效地减少摆动。
RMSprop:偏置校正后,每个迭代学习率都有确定范围,参数较平稳。
如何选择合适的优化器:
数据稀疏:选择自适应的优化器,如:Adagrad、Adadelta、RMSprop、Adam。
梯度稀疏:Adam比RMSprop效果更好。
总而言之,Adam优化器应用范围更广,比较常用。
实践案例 从感知机到卷积神经网络
训练100次
训练轮次为100次时,模型的准确率只有79%,继续进性训练,当训练400次时,模型的准确率达到94%,继续训练模型的准确率区于稳定,增长幅度非常慢。
训练400次
深度学习理论课程:AI Gallery-开发者-华为云 (huaweicloud.com)
边栏推荐
猜你喜欢
随机推荐
【DC-5 Range Penetration】
IO 复用
动态规划笔记
代码没写完,哪里有脸睡觉!17 张程序员壁纸推荐
中国柔性制造系统(FMS)市场发展动态及未来趋势预测报告2022~2028年
中国石油行业并购重组趋势与投资战略规划建议报告2022~2028年
C# Base64加密
【CSRF,SSRF,XXE,PHP反序列化,Burpsuite】
【IDEA】字体修改-护眼主题-文件注释头设置
NFT租赁提案EIP-5006步入最后审核!让海外大型游戏的链改成为可能
中国生物反应器行业发展现状及前景规划分析报告报告2022~2028年
docker mysql 容器中执行mysql脚本文件并解决乱码
Oracle 分区索引详解(local、global)
MySQL 排序
中国聚氯乙烯(PVC)土工膜发展动态及投资前景预测报告2022~2028年
Qlik Sense 判空详解(IsNull)
【XSS,文件上传,文件包含】
IPC 通信 - IPC
Delightful Nuxt3 Tutorial (1): Application Creation and Configuration
MySql 怎么查出符合条件的最新的数据行?