当前位置：网站首页>深度学习调参技巧详解

深度学习调参技巧详解

2022-06-13 01:37:00 【星空下0516】

文章目录

学习率
Batch-Size
epoch迭代次数
iteration
Dropout
激活函数
网络深度和宽度

学习率

学习率是一个非常非常重要的超参数，它可以直接控制模型参数更新的步伐，学习率的不同会给模型的训练带来不同的影响，有的无法训练出好的结果，有的训练时间非常长等等。面对不同规模、不同batch-size、不同优化方式、不同数据集，其最合适的值都是不确定的，我们无法光凭经验来准确地确定lr的值，我们唯一可以做的，就是在训练中不断寻找最合适当前状态的学习率。

Batch-Size

首先看一下batch英文翻译：

batch

noun [ C ]
UK  /bætʃ/ US  /bætʃ/
 
a group of things or people dealt with at the same time or considered similar in type
一批，一组

那么batch size就是批大小，批尺寸。顾名思义就是批次大小，也就是一次训练选取的样本个数．batch size的大小对模型的速度有很大的影响，特别是GPU的显存不足的时候，最好不要把该数值设置太高，但是该值对模型收敛的结果影响不大，无非是训练速度有较大的影响，但是太小会导致无法收敛。下面是batch size的大小对模型的影响：

1. 适当增加batch size可以提高内存利用率。
2.适当的增加batch size梯度下降方向准确度增加，训练震动的幅度减小。
3. batch size的值太大会导致显存不足。
4. 如果batch size 太小会导致非常难收敛，从而导致underfitting。

一句话：batch size的为了在效率和显存容量之间寻找最佳平衡。

epoch迭代次数

首先说一下什么是epoch，首先从英文解释如下：

epoch:

noun [ C ]
UK  /ˈiː.pɒk/ US  /ˈiː.pɑːk/
 
a long period of time, especially one in which there are new developments and great change
（尤指出现新进步和大变革的）时代，纪元，时期

这里比较接近中文的“期”的意思，可以理解成周期的意思。即用训练集中的全部样本训练一次，循环一个周期，1个epoch表示过了1遍训练集中的所有样本。

下面我们分析一下，如果一个100000的数据集，由于数据太大跑完一次需要很久而导致调参数变得很慢，所以需要分成多个batch，假设分成100个batch，即每个batch size是1000，那么跑完一个epoch就是跑完这100个batch，即跑完100*1000数据。

iteration

中文翻译：

iteration:

noun [ C or U ]
UK  /ˌɪt.ərˈeɪ.ʃən/ US  /ˌɪt̬.əˈreɪ.ʃən/

an amount that you get when you use a mathematical rule several times
迭代，叠代（数学里若干次使用一个数学法则得出的量）

1个iteration即迭代一次，也就是用batchsize个样本训练一次。迭代是重复反馈的动作，神经网络中我们希望通过迭代进行多次的训练以到达所需的目标或结果。