当前位置:网站首页>BatchNorm&&LayerNorm
BatchNorm&&LayerNorm
2022-08-04 05:29:00 【CV小Rookie】
以二维输入情况为例:
BatchNorm:
对一列,也就是某一个特征进行操作:均值变为0,方差变为1;
变换后某个神经元的激活x形成了均值为0,方差为1的正态分布,目的是把值往后续要进行的非线性变换的线性区拉动,增大导数值,增强反向传播信息流动性,加快训练收敛速度。
但是这样会导致网络表达能力下降,为了防止这一点,每个神经元增加两个调节参数(scale和shift),这两个参数是通过训练来学习到的,用来对变换后的激活反变换,使得网络表达能力增强,即对变换后的激活进行如下的scale和shift操作。


LayerNorm:
对每一个样本(也就是一行)进行与BatchNorm一样的操作。

以三维输入情况为例:
BatchNorm:
右图为截面图,可以看到由于样本长度不定,所以在计算mini_batch的均值与方差的时候抖动特别大。预测时是需要记住全局的均值与方差,当预测时碰倒未见过的样本,训练出来的方差与均值不好用 。
LayerNorm:
LayerNorm计算的是样本的方差与均值,不需要计算全局的。相对来说比较稳定。
边栏推荐
猜你喜欢

超详细MySQL总结

MAE 论文《Masked Autoencoders Are Scalable Vision Learners》

fill_between in Matplotlib; np.argsort() function

Th in thymeleaf: href use notes

Linear Regression 02---Boston Housing Price Prediction
k3s-轻量级Kubernetes

逻辑回归---简介、API简介、案例:癌症分类预测、分类评估法以及ROC曲线和AUC指标

sklearn中的pipeline机制

NFT市场以及如何打造一个NFT市场

字典特征提取,文本特征提取。
随机推荐
【树 图 科 技 头 条】2022年6月28日 星期二 伊能静做客树图社区
(十三)二叉排序树
(TensorFlow) - detailed explanation of tf.variable_scope and tf.name_scope
Logistic Regression --- Introduction, API Introduction, Case: Cancer Classification Prediction, Classification Evaluation, and ROC Curve and AUC Metrics
8.30难题留坑:计数器问题和素数等差数列问题
(十五)B-Tree树(B-树)与B+树
flink-sql自定义函数
动手学深度学习__张量
Kubernetes基本入门-元数据资源(四)
MySql的concat和group_concat的区别
oracle的number与postgresql的numeric对比
MySQL最左前缀原则【我看懂了hh】
SQL练习 2022/7/4
判断字符串是否有子字符串重复出现
多项式回归(PolynomialFeatures)
EPSON RC+ 7.0 使用记录一
TensorFlow2学习笔记:5、常用激活函数
[Introduction to go language] 12. Pointer
TensorFlow2学习笔记:8、tf.keras实现线性回归,Income数据集:受教育年限与收入数据集
【CV-Learning】语义分割


