当前位置：网站首页>深度学习——LSTM基础

深度学习——LSTM基础

2022-07-05 03:33:00 【冠long馨】

记住所有信息。
在这里插入图片描述
（1）定义与特性
RNN之所以在时序数据上有着优异的表现是因为RNN在t时间片时会将t-1时间片的隐节点作为当前时间片的输入。

（2）问题

LSTM之所以能够解决RNN的长期依赖问题，是因为LSTM引入了门（gate）机制用于控制特征的流通和损失。

（1）定义与特性
设置记忆细胞，选择性的记忆。
在这里插入图片描述

（2）前向传播
在这里插入图片描述
选择性的保留历史记忆，吸收新的知识

遗忘门 $f_t$ ：
① $f_t=\sigma(W_{xf}x_t+W_{hf}h_{t-1}+b_f);$
②理解： $f_t$ 通过sigmoid函数选择记忆（遗忘）历史信息 $C_{t-1}$ 。

可以想象，脑容量是有限的。让输入新的信息时就需要选择性的遗忘一些作用不强的历史记忆。

输入门 $i_t$ ：
① $i_t=\sigma(W_{xi}x_t+W_{hi}h_{t-1}+b_i);$
理解： $i_t$ 通过sigmoid选择性的学习新的信息 $g_t$ 。
② $g_t=\tanh(W_{xg}x_t+W_{hg}h_{t-1}+b_g)$

新的输入信息并不是全部有用的，我们只需要记住相关的信息。

历史信息 $c_t$ ：
① $c_t=f_t \odot c_{t-1}+g_t*i_t;$
理解：新的记忆是由之前的记忆和新获知的信息组成。其中 $f_t,i_t$ 分别是对历史记忆和信息的筛选。

选择性地结合历史记忆和新信息，形成了新的记忆。

输出门 $o_t$ ：
① $o_t=\sigma(W_{xo}x_t+W_{ho}h_{t-1}+b_o);$
理解： $o_t$ 通过sigmoid选择性的运用记忆 $tanh(C_t)$ 。
② $m_t=\tanh(c_t);$
理解： $C_t$ 通过tanh运用历史记忆。
③ $h_t=o_t \odot m_t;$ 得到的 $h_t$ 会输出和用于下一个事件步t+1中。
输出 $y_t$ ：
① $y_t = W_{yh}h_t+b_y;$

（3）理解

①使用 $\sigma$ 函数 $f_t,g_t$ 选择性的记忆历史信息 $C_{t-1}$ 和学习新的知识 $g_t$ 。
$c_t=f_t \odot c_{t-1}+g_t*i_t;$
②使用 $\sigma$ 函数 $o_t$ 筛选历史记忆 $C_t$ 作为短期记忆 $h_t$ 。
$h_t=o_t \odot m_t;$
向前传播的过程：
LSTM通过三个门两个状态实现长短期记忆。首先通过记忆门 $f_t$ 选择记忆历史信息 $C_{t-1}$ ，然后通过学习门 $g_t$ 选择性学习新的信息 $i_t$ 。将筛选获得的新旧记忆相加获得新的历史记忆 $C_t$ 。最后通过输出门 $o_t$ 选择性接收历史信息获得短期记忆 $h_t$ 。将短期记忆输入到输出中获得输出值 $y_t$ 。