当前位置:网站首页>【过一下8】全连接神经网络 视频 笔记
【过一下8】全连接神经网络 视频 笔记
2022-08-05 05:12:00 【墨苏玩电脑】
过一下8 视频过完
颓了两天了
第五节视频,老师先回顾了一下前面的概念,关于交叉熵和相对熵这里,前者没有分母比较简单,然后onehot所以最终简化为-log
(2022年6月28日08:38:38 现在已经看了剩余部分1/38了,加油)
梯度消失(反向传递乘上0)
梯度爆炸(飞出去,扯住蛋了)
裁剪:束缚步长
上个时代没有暴露着两个问题的时候经常使用的。现在的用处就在输出层,如果需要结果在0和1之间的时候。不会用在隐含层。



梯度下降存在的问题


设置成1 就相当于没有摩擦 ,永远停不下来了。v=v

在平路上冲刺
震荡方向 r大 一步星朗小
但是在一直累加的过程中,r越来越大,最后 步长很小,走不动了
(这里就相当于 无脑的集成之前所有的记录)
这个就好 ρ代表着集成之前多少的训练记录。
0.999r+0.001 (g*g)-100轮-》就很小了
保证了 他只保留这100次训练的经验,也不会无限增大
如果想要保留更多,就ρ设大一点,但不能为1(那样就保留所有了)
动量法-此消彼长
自适应-不同方向不同的步子
Adam-结合两者

(2022年6月28日09:14:35 看了 2/38了)

可以先adam快速的挑一个差不多的,然后用动量加SGD慢慢炼丹
也会先动量加SGD,然后再adam
参数初始化



游戏可以玩下去了
基本符合正态
大部分集中在0
均匀很多
如果不考虑权值初始化 ,一个个神经元都是一样的参数,就相当于一个神经元
如果使用不恰当的初始化方法和激活函数的组合,就会导致要么就是分布不均匀,要么就是拉了胯了
批归一化

现在不考虑 权值初始化的事情了
直接从最后考虑,我直接对y下手
你想要的不就是 0均值1方差的y嘛
那我就求个均值,再一减(归一化一下),然后把这个当做y

按照想法是放在激活函数之后,但是实操下来,分啊先放在 FC和激活函数之间比较好
可以让那些 原本会落在鸟不拉屎地方的点回到好地方(原本越来越小的值和没有梯度的地方)
x1…xm就是原来的y
y1…ym就是上面标黄的
如果止步于此,就是进行了个归一化
做了个改进,平移缩放
让神经网络自己决定均值和方差(那两个参数也是学习的)
正向更加方便,反向也能有梯度
保证信息流流通顺畅=》训练好
(2022年6月28日09:59:20 看完3/38)
过拟合 欠拟合

过拟合 记住就好了(往往奔着这个去设计)
欠拟合 学习能力差,学不来(通常可以解决)
L损失 E误差
训练集-优化
验证集 测试集-泛化(算精度)
(2022年6月28日10:13:25 看了 4/38)
应对过拟合

增加训练数据-成本高
调整大小-9层改8层,500个神经元改300个
强制神经网络不能靠屁大点的样本去影响权重参数,要顾大局,要更分散
使得分界面 更简单更平滑
随机失活


针对解释2
觉得有点像瞬息全宇宙
可能最后是打boss,要从其他宇宙那里汲取能力,然后尽力去打,可能在这里推进的还不错,结果突然boss过来干掉了(dropout),那为了最后能打过boss,其他宇宙都要努力去变得更强,不能太单一。
为什么说都要努力(平均),而不是养一个大爹(全集中在一个身上),因为不知道哪个会被dropout,要是都摆烂(信息存的少),那更是完蛋,boss肯定打不过了
解释3
相当于那个x的网络B和A投票的出来的结果
虽然一个网络很牛,可能大多时候都是对的,但是一旦犯错,就完蛋了,所以这个时候就需要三个臭皮匠
使用的时候
测试时候神经元都是打开的,不会随机失活

还要在最后再乘个p,要不然训练的时候都是1/2期望E,测试时候是期望E,差了一倍呢
那直接在训练的时候 除一下p,保证数值(期望)相同就好了
(2022年6月28日10:38:59 看完了 5/38)
参数
参数-神经网络自己学的
超参数-我定的

妙呀,把学习率比作棒子的长度,太大就挂在外面了
一般的话也是触碰不到谷底的。
右上角是策略
/e^t 一直衰减
或者训练一轮,然后卡住了,然后 往下一级去调,循环
(溜了休息了)

前者 只比较了三个学习率 后者9个 所以用后面的
(2022年6月28日12:14:43 6/38已看完)
边栏推荐
- Difference between for..in and for..of
- server disk array
- Redis - 13、开发规范
- 一篇博客通关Redis技术栈
- The difference between span tag and p
- After controlling the export file in MySQL, it becomes \N. Is there any solution?
- 2022 Hangzhou Electric Multi-School 1st Session 01
- "Recursion" recursion concept and typical examples
- 【学生毕业设计】基于web学生信息管理系统网站的设计与实现(13个页面)
- Excel画图
猜你喜欢

OFDM Lecture 16 5 -Discrete Convolution, ISI and ICI on DMT/OFDM Systems

ESP32 485光照度

Flutter learning 5-integration-packaging-publish

server disk array

Structured light 3D reconstruction (1) Striped structured light 3D reconstruction

WPF中DataContext作用

OFDM 十六讲 5 -Discrete Convolution, ISI and ICI on DMT/OFDM Systems

Error creating bean with name ‘configDataContextRefresher‘ defined in class path resource

Application status of digital twin technology in power system

Flutter 父子组件如何都能收到点击事件
随机推荐
服务器磁盘阵列
仪表板展示 | DataEase看中国:数据呈现中国资本市场
software management rpm
Flutter learning 2-dart learning
【读书】长期更新
淘宝账号如何快速提升到更高等级
Excel Paint
入口点注入
Dephi reverse tool Dede exports function name MAP and imports it into IDA
MySQL Foundation (1) - Basic Cognition and Operation
【软考 系统架构设计师】软件架构设计③ 特定领域软件架构(DSSA)
Multi-threaded query results, add List collection
The role of DataContext in WPF
number_gets the specified number of decimals
『递归』递归概念与典型实例
数字_获取指定位数的小数
「PHP8入门指南」PHP简明介绍
【过一下 17】pytorch 改写 keras
Error creating bean with name 'configDataContextRefresher' defined in class path resource
Flutter学习4-基本UI组件