一文看懂长短期记忆网络(LSTM)的工作原理

发布：2022-10-28 16:32:33

阅读：7930

作者：网络整理

长短期记忆网络(LSTM)是一种递归神经网络(RNN)，可以学习和记忆长期依赖关系，会随着时间的推移保留信息。因此，LSTM可以解决短期记忆的问题。

LSTM算法流程与RNN类似，它们都是在前向传播过程中处理传递信息的数据，区别在于LSTM单元的结构和运算有所变化。

这里就不得不提到LSTM的核心概念：单元状态和门结构。

单元状态：相当于能传输相关信息的通路，让信息在序列链中传递下去，这部分可看作是网络的“记忆”。

输入门：用来更新单元状态。

遗忘门：决定应丢弃或保留哪些信息。

输出门：输出门能决定下个隐藏状态的值，隐藏状态中包含了先前输入的相关信息。

而在这个过程中，LSTM是通过Sigmoid函数来判断哪些数据需要遗忘，哪些数据需要保留。Sigmoid函数输出是(0,1)，当为0时，任何数字乘以0都为0，这部分信息会被遗忘。相应的，当为1时，任何数字乘以1都为相同值，这部分信息会完全保留。

这时就能看出LSTM算法工作原理了。

LSTM算法工作原理

把先前的单元状态和Sigmoid函数相乘，如果它乘积接近0，则意味在新的单元状态中可能要丢弃这些值，反之，乘积接近原值，则保留。然后把它和输入门的输出值逐点相加，把神经网络发现的新信息更新到单元状态中，这样就得到了新的单元状态。

LSTM算法用例

LSTM可以用于语音识别、语音合成和文本生成等领域，还可用来为视频生成字幕。

深度学习

云启未来，智绘中国，网易伏羲亮相《云上的中国3：剧变中的AI时代》

在数字化转型的时代洪流中，每一项技术的跃进都是对未来的深刻探索与描绘。近日，网易伏羲作为国内人工智能领域的领军者，受邀参与《云上的中国3：剧变中的AI时代》纪录片访谈，凭借其在人工智能领域的卓越成就和创新实践，成为展示中国AI创新力量的重要代表之一。

2024-06-18 10:13:05

使用Python中的合成数据集理解并实现残差神经网络

残差神经网络（ResNet）是由微软研究院的何凯明人提出的一种深度神经网络架构，通过使用残差块来解决深层网络的缺口等问题。在残差块中，通过引入跳跃连接，能够使网络学习残差，从而更轻松地训练出非常深的神经网络。

2023-12-27 15:18:06

RMSprop优化器

RMSprop是一种常用的优化器，用于在深度学习中更新神经网络的权重。它是由Geoffrey Hinton等人在2012年提出的，是Adam优化器的前身。RMSprop优化器可以有效地解决SGD梯度下降算法中遇到的一些问题，例如梯度消失、梯度爆炸等问题。

2023-10-24 09:53:40

MSE损失函数

MSE损失函数是机器学习和深度学习中常用的一种损失函数，适用于回归问题中。它具有易于计算和优化、可处理噪声数据、提供模型的可解释性等优点，但也存在对异常值敏感、梯度消失问题等缺点。在使用MSE损失函数训练模型时，需要选择适当的模型结构、数据集、优化器等，并根据实际情况对异常值进行处理。

2023-10-20 10:00:04

Conformer模型的结构和特点

Conformer是一种基于自注意力机制的序列模型，它在语音识别、语言建模、机器翻译等任务中取得了优异的性能。Conformer模型的设计灵感来自Transformer模型，但在一些方面进行了改进，使得它更加适用于序列建模任务。本文将详细介绍Conformer模型的结构和特点。

2023-10-18 10:21:52

深度聚类及算法综述

深度聚类是一种利用深度学习方法进行聚类分析。它结合了深度学习模型和聚类算法，可以自动地从数据中学习特征并将数据分组成具有相似特征的类别。相比传统的聚类算法，深度聚类可以处理高维度、非线性和复杂的数据，具有更好的表现力和精度。

2023-10-17 10:17:30

深度学习中的embedding层

embedding层是深度学习中非常重要的一种神经网络层，可以将离散的特征映射到低维连续空间中，以便于神经网络模型对其进行学习。在NLP和其他领域中，embedding层已经成为了很多应用的核心技术，为实现更加准确和智能的数据处理和分析提供了强有力的支持。

2023-10-13 10:17:18

大模型中embedding如何实现？

嵌入是深度学习中非常重要的技术之一，它可以将高维度的输入数据映射到低维度向量空间中，从而提高模型的效率和准确性。嵌入的实现涉及到嵌入矩阵初始化和嵌入查找，以及词汇表大小和嵌入维度等参数的选择。在训练嵌入层时，需要考虑一些技巧，以避免过拟合或训练不稳定。嵌入在自然语言处理、图像处理、推荐系统等领域都有广泛的应用，可以帮助解决各种实际问题。

2023-10-08 10:20:41

CycleGAN（基于深度学习的图像转换模型）

CycleGAN是一种基于深度学习的图像转换模型，它可以将一种类型的图像转换成另一种类型的图像，例如将马的图像转换成斑马的图像，将夏季景色的图像转换成冬季景色的图像等等。这种图像转换技术具有广泛的应用前景，例如在计算机视觉、虚拟现实、游戏开发、图像增强等领域。

2023-09-22 10:12:16

Attention模型详解

Attention模型是深度学习中的一种重要模型，它能够帮助模型处理序列数据，从而在机器翻译、语音识别、图像处理等领域中取得了很好的效果。本文将详细介绍Attention模型的原理、应用和发展。

2023-09-20 10:04:47