当前位置：网站首页>BatchNorm＆＆LayerNorm

BatchNorm＆＆LayerNorm

2022-08-04 05:29:00 【CV小Rookie】

对一列，也就是某一个特征进行操作：均值变为0，方差变为1；

变换后某个神经元的激活x形成了均值为0，方差为1的正态分布，目的是把值往后续要进行的非线性变换的线性区拉动，增大导数值，增强反向传播信息流动性，加快训练收敛速度。

但是这样会导致网络表达能力下降，为了防止这一点，每个神经元增加两个调节参数（scale和shift），这两个参数是通过训练来学习到的，用来对变换后的激活反变换，使得网络表达能力增强，即对变换后的激活进行如下的scale和shift操作。

对每一个样本（也就是一行）进行与BatchNorm一样的操作。

右图为截面图，可以看到由于样本长度不定，所以在计算mini_batch的均值与方差的时候抖动特别大。预测时是需要记住全局的均值与方差，当预测时碰倒未见过的样本，训练出来的方差与均值不好用。

LayerNorm计算的是样本的方差与均值，不需要计算全局的。相对来说比较稳定。

版权声明
本文为[CV小Rookie]所创，转载请带上原文链接，感谢
https://blog.csdn.net/like_jmo/article/details/125995500