当前位置:网站首页>深度学习理论 —— 初始化、参数调节
深度学习理论 —— 初始化、参数调节
2022-08-04 05:30:00 【学习历险记】
初始化
深度学习模型训练的过程本质是对参数w进行更新,这需要每个参数有相应的初始值。
为什么要初始化?
神经网络要优化一个非常复杂的非线性模型,而且基本没有全局最优解,初始化在其中扮演着非常重要的作用。
□ 初始点的选取,有时能够决定算法是否收敛;
□ 当收敛时,初始点可以决定学习收敛的多快,是否收敛到一个代价高或低的点;
□ 过大的初始化导致梯度爆炸,过小的初始化导致梯度消失。
什么是好的初始化?
好的初始化应该满足以下两个条件:
□ 让神经元各层激活值不会出现饱和现象;
□ 各层激活值也不能为0。
全零初始化:参数初始化为0。
缺点:同一层的神经元会学习到相同的特征,不能破坏不同神经元的对称性质。
如果神经元的权重被初始化为0,所有神经元的输出都将是相同的,除了输出之外,所有的中间层的节点的值都为零。一般神经网络拥有对称的结构,那么在进行第一次误差反向传播时,更新后的网络参数将会相同,在下一次更新时,相同的网络参数学习提取不到有用的特征,因此深度学习模型都不会使用0初始化所有参数。
参数调节
批量 batchsize 选择2的指数倍 与计算机内存相符
超参数调节方法
试错法、网络搜索、随机搜索、贝叶斯优化、高斯过程
边栏推荐
- TensorFlow2 study notes: 5. Common activation functions
- [Deep Learning 21 Days Learning Challenge] 1. My handwriting was successfully recognized by the model - CNN implements mnist handwritten digit recognition model study notes
- TensorFlow2 study notes: 8. tf.keras implements linear regression, Income dataset: years of education and income dataset
- [Go language entry notes] 13. Structure (struct)
- 【CV-Learning】Image Classification
- Data reading in yolov3 (1)
- TensorFlow2 study notes: 7. Optimizer
- Pytest常用插件
- MySQL leftmost prefix principle [I understand hh]
- RecyclerView的用法
猜你喜欢
SQL注入详解
fuser 使用—— YOLOV5内存溢出——kill nvidai-smi 无pid 的 GPU 进程
MAE 论文《Masked Autoencoders Are Scalable Vision Learners》
【深度学习21天学习挑战赛】0、搭建学习环境
【CV-Learning】Convolutional Neural Network
度量学习(Metric learning)—— 基于分类损失函数(softmax、交叉熵、cosface、arcface)
Transformer
Halcon缺陷检测
Dictionary feature extraction, text feature extraction.
【深度学习21天学习挑战赛】3、使用自制数据集——卷积神经网络(CNN)天气识别
随机推荐
彻底搞懂箱形图分析
【go语言入门笔记】12、指针
安装dlib踩坑记录,报错:WARNING: pip is configured with locations that require TLS/SSL
动手学深度学习__数据操作
光条中心提取方法总结(二)
Learning curve learning_curve function in sklearn
浅谈游戏音效测试点
No matching function for call to ‘RCTBridgeModuleNameForClass‘
Logistic Regression --- Introduction, API Introduction, Case: Cancer Classification Prediction, Classification Evaluation, and ROC Curve and AUC Metrics
Jupyter Notebook installed library;ModuleNotFoundError: No module named 'plotly' solution.
TypeError: load() missing 1 required positional argument: ‘Loader‘
【代码学习】
动手学深度学习_卷积神经网络CNN
TensorFlow2 study notes: 4. The first neural network model, iris classification
读研碎碎念
审稿意见回复
Briefly say Q-Q map; stats.probplot (QQ map)
BatchNorm&&LayerNorm
投稿相关
中国联通、欧莱雅和钉钉都在争相打造的秘密武器?虚拟IP未来还有怎样的可能