当前位置:网站首页>LSTM神经网络
LSTM神经网络
2022-07-24 05:20:00 【一枚小可爱c】

长短期记忆网络(LSTM)是循环网络的一个变体,可以有效的解决循环神经网络(RNN)的梯度爆炸问题。
LSTM的三个门
LSTM网络引入门控机制(gating mechanism)来控制信息传递的路径,三个门分别是输入门
、遗忘门
、输出门
,这三个门的作用分别是:
(1)输入门
控制当前时刻的候选状态
有多少信息需要保存.
(2)遗忘门
控制上一个时刻的内部状态
需要遗忘多少信息
(3)输出门
控制当前时刻的内部状态
有多少信息需要输出给外部状态
当
,
时,记忆单元将历史信息清空,并将候选状态向量
写入,但此时记忆单元
依然和上一时刻的历史信息相关,当
,
时,记忆单元将复制上一时刻的内容,不写入新的信息。
LSTM网络中的“门”是一种“软”门,取值在(0,1)之间,表示以一定的比例允许信息通过,三个门的计算方式为:
,
,
,
其中
为Logistic函数,其输出区间为(0,1),
为当前时刻的输入,
为上一时刻的外部状态。
LSTM的计算过程
下图给出了LSTM网络的循环单元结构

其计算过程为:
1)首先利用上一时刻的外部状态
和当前时刻的输入
计算出三个门,以及候选状态
;
2)结合遗忘门
和输入门来更新记忆单元
;
3)结合输出门
,将内部状态的信息传递给外部状态;
pytorch中lstm参数解释
LSTM总共有7个参数:
1:input_size – 输入数据的大小
2:hidden_size – 隐藏层的大小(即隐藏层节点数量),输出向量的维度等于隐藏节点数
3:num_layers – LSTM 堆叠的层数,默认值是1层,如果设置为2,第二个LSTM接收第一个LSTM的计算结果。也就是第一层输入 [ X0 X1 X2 ... Xt],计算出 [ h0 h1 h2 ... ht ],第二层将 [ h0 h1 h2 ... ht ] 作为 [ X0 X1 X2 ... Xt] 输入再次计算,输出最后的 [ h0 h1 h2 ... ht ]。
4:bias– 隐层状态是否带bias,默认为true。bias是偏置值,或者偏移值
5:batch_first– 输入输出的第一维是否为 batch_size,默认值 False
6:dropout– 默认值0。是否在除最后一个 RNN 层外的其他 RNN 层后面加 dropout 层。输入值是 0-1 之间的小数,表示概率。0表示0概率dripout,即不dropout
7:bidirectional– 是否是双向 RNN,默认为:false,若为 true,则:num_directions=2,否则为1。
为什么叫长短期记忆?(长短期记忆是指长的“短期记忆”)
循环神经网络中的隐状态
存储了历史信息,可以看作是一种记忆。在简单循环网络中,隐状态每个时刻都会被重写,因此可以看作一种短期记忆,在神经网络中,长期记忆可以看作网格参数,隐含了从训练数据中学到的经验,其更新周期要远远慢于短期记忆,而在LSTM网络中,记忆单元
可以在某个时刻捕捉到某个关键信息,并有能力将此关键信息保存一定的时间间隔,记忆单元
中保存信息的声明周期要长于短期记忆
,但又远远短于长期记忆,因此称为长短期记忆。
关于梯度弥散
一般在深度网络参数学习时,参数初始化的值一般设置都比较小,但是在训练LSTM网络时,过小的值会使得遗忘门的值比较小,这意味着前一时刻的信息大部分都丢失了,这样网络很难捕捉到长距离的依赖信息,并且相邻时间间隔的梯度会非常小,这会导致梯度弥散问题。因此遗忘的参数初始值一般设置的都比较大,其偏执向量
设为1或2
边栏推荐
- 《统计学习方法(第2版)》李航 第14章 聚类方法 思维导图笔记 及 课后习题答案(步骤详细) k-均值 层次聚类 第十四章
- 快速打开管理工具的命令
- 学习率余弦退火衰减之后的loss
- Logical structure of Oracle Database
- Two architectures of data integration: ELT and ETL
- Multi merchant mall system function disassembly lecture 05 - main business categories of platform merchants
- 【vsphere高可用】主机故障切换
- 多商户商城系统功能拆解06讲-平台端商家入驻协议
- 《信号与系统》(吴京)部分课后习题答案与解析
- ntp错误: no server suitable for synchronization found
猜你喜欢

likeshop | 单商户商城系统代码开源无加密-PHP

达梦数据库_LENGTH_IN_CHAR和CHARSET的影响情况

多商户商城系统功能拆解08讲-平台端商品分类

多商户商城系统功能拆解06讲-平台端商家入驻协议

Zotero Quick Start Guide

Multi merchant mall system function disassembly Lecture 10 - platform end commodity units

plsql查询数据乱码

Multi merchant mall system function disassembly Lecture 11 - platform side commodity column

Likeshop | single merchant mall system code open source no encryption -php

《统计学习方法(第2版)》李航 第22章 无监督学习方法总结 思维导图笔记
随机推荐
Multi merchant mall system function disassembly lesson 03 - platform side merchant management
【activiti】组任务
Flink sql-client.sh使用
删除分类网络预训练权重的的head部分的权重以及修改权重名称
[activiti] activiti introduction
数据仓库与数仓建模
公众号开发自定义菜单和服务器配置同时启用
《机器学习》(周志华)第2章 模型选择与评估 笔记 学习心得
达梦数据库_逻辑备份
Are you still trying to limit MySQL paging?
达梦数据库_支持的表类型,用法,特性
Sqlserver completely deleted
[vSphere high availability] virtual machine reset and restart
《统计学习方法(第2版)》李航 第22章 无监督学习方法总结 思维导图笔记
Unknown collation: ‘utf8mb4_ 0900_ ai_ Solution of CI '
第五章神经网络
Highcharts use custom vector maps
多商户商城系统功能拆解13讲-平台端会员管理
学习率余弦退火衰减之后的loss
[activiti] activiti environment configuration