一文看懂长短期记忆网络(LSTM)的工作原理

发布:2022-10-28 16:32:33
阅读:6256
作者:网络整理
分享:复制链接

长短期记忆网络(LSTM)是一种递归神经网络(RNN),可以学习和记忆长期依赖关系,会随着时间的推移保留信息。因此,LSTM可以解决短期记忆的问题。

LSTM算法流程与RNN类似,它们都是在前向传播过程中处理传递信息的数据,区别在于LSTM单元的结构和运算有所变化。

这里就不得不提到LSTM的核心概念:单元状态和门结构

单元状态:相当于能传输相关信息的通路,让信息在序列链中传递下去,这部分可看作是网络的“记忆”。

输入门:用来更新单元状态。

遗忘门:决定应丢弃或保留哪些信息。

输出门:输出门能决定下个隐藏状态的值,隐藏状态中包含了先前输入的相关信息。

而在这个过程中,LSTM是通过Sigmoid函数来判断哪些数据需要遗忘,哪些数据需要保留。Sigmoid函数输出是(0,1),当为0时,任何数字乘以0都为0,这部分信息会被遗忘。相应的,当为1时,任何数字乘以1都为相同值,这部分信息会完全保留。

这时就能看出LSTM算法工作原理了。

LSTM算法工作原理

把先前的单元状态和Sigmoid函数相乘,如果它乘积接近0,则意味在新的单元状态中可能要丢弃这些值,反之,乘积接近原值,则保留。然后把它和输入门的输出值逐点相加,把神经网络发现的新信息更新到单元状态中,这样就得到了新的单元状态

LSTM算法用例

LSTM可以用于语音识别、语音合成和文本生成等领域,还可用来为视频生成字幕。

扫码进群
微信群
免费体验AI服务