什么是循环神经网络(RNN)？循环神经网络(RNN)工作原理和训练方法

发布：2022-11-28 15:03:19

阅读：6448

作者：网络整理

循环神经网络(RNN)常用于深度学习和开发模拟人工神经网络模型，与其他类型的人工神经网络不同的是，循环神经网络会使用反馈循环来处理数据。这些反馈循环允许信息持续存在，这种情况被描述为记忆，这一过程是循环神经网络借助隐藏层来实现的。因此，循环神经网络还是一种能处理时序数据的神经网络。

接下来，我们来看看循环神经网络是如何工作，是怎么训练的。

循环神经网络工作原理和训练方法

循环神经网络工作原理

循环神经网络是具有循环连接的神经元组成，这意味着神经元的输出被反馈到同一神经元的输入中，这会创建一个隐藏状态，可以将其视为循环神经网络的记忆。隐藏状态在每个时间节点更新，更新后的隐藏状态用作下一个时间节点的输入。

讲完概念，我们可以借助下面这个例子更好地理解循环神经网络的工作原理，例子：

假设有这么一个人工神经网络，它具有一个输入层、三个隐藏层和一个输出层。然后像其他神经网络一样，每个隐藏层都有自己的一组权重和偏差，这意味着这些层中的每一层都相互独立，即它们不会记住之前的输出。

现在将这个人工神经网络将执行以下操作：

人工神经网络通过为所有层提供相同的权重和偏差，将独立激活转换为依赖激活，从而降低增加参数的复杂性，并通过将每个输出作为下一个隐藏层的输入来记忆每个先前的输出。

因此，这三层可以连接在一起，使得所有隐藏层的权重和偏差在单个循环层中相同。

当前状态的计算公式：h_t=f(h_t-1,x_t)

其中h_t表示当前状态；h_t-1表示之前的状态；x_t表示输入状态。

应用激活函数的公式：h_t=tanh(w_hh+w_xh)

其中w_hh表示循环神经元的权重；w_xh表示输入神经元的权重。

计算输出公式：Y_t=W_hyh_t

其中Y_t表示输出；W_hy表示输出层的权重。

训练循环神经网络

根据上述示例，我们可以这样来训练循环神经网络：

1.输入的单时间步长被提供给网络。

2.然后使用一组当前输入和先前状态计算其当前状态。

3.对于下一个时间步，当前的ht变为ht-1。

4.可以根据问题进行尽可能多的时间步长，并加入所有先前状态的信息。

5.一旦完成所有时间步长，最终的当前状态将用于计算输出。

6.然后将输出与实际输出（即目标输出）进行比较，并生成错误。

7.然后将错误反向传播到网络以更新权重，从而训练循环神经网络。

循环神经网络的优势

循环神经网络会随着时间记住每条信息，它在时序预测中很有用，这也有助于建模数据点之间的依赖关系。循环神经网络可以展开形成深度神经网络，进一步提高对复杂依赖关系进行建模的能力。

循环神经网络的缺点

存在梯度消失和爆炸问题。
训练循环神经网络是一项非常困难的任务。

循环神经网络的应用

自然语言处理，如语言建模、文本生成
语音识别
机器翻译
图像识别、人脸检测
时间序列预测

人工神经网络

大模型的低秩适应

大模型的低秩适应旨在通过用低维结构近似大型模型的高维结构来降低其复杂性。具体来说，这种方法旨在创建一个更小、更易于管理的原始模型表示，该表示仍然可以很好地执行特定的任务。

2023-12-29 14:42:38

使用Python中的合成数据集理解并实现残差神经网络

残差神经网络（ResNet）是由微软研究院的何凯明人提出的一种深度神经网络架构，通过使用残差块来解决深层网络的缺口等问题。在残差块中，通过引入跳跃连接，能够使网络学习残差，从而更轻松地训练出非常深的神经网络。

2023-12-27 15:18:06

基于树的算法在哪些情况下会优于神经网络？

基于树的算法和神经网络各有优势。基于树的算法在可解释性、处理离散特征、小型数据集和强调鲁棒性的情况下表现更优。

2023-12-22 14:41:46

微调大型语言模型（LLM）的数据注释

大型语言模型（LLM）的微调是指使用特定领域的数据对预训练模型进行再训练，以使其适应特定任务或领域。数据注释是微调过程中至关重要的一部分，它涉及将数据标记为模型需要理解的特定信息。

2023-12-19 10:25:22

LLM大语言模型和检索增强生成

LLM大语言模型通常采用Transformer架构，并通过大量文本数据进行训练。它们可以理解和生成自然语言，被广泛应用于聊天机器人、文本摘要、机器翻译等领域。知名的LLM大语言模型包括OpenAI的GPT系列、谷歌的BERT等。

2023-12-06 10:31:45

神经网络遗传算法在函数极值寻优

神经网络遗传算法函数极值寻优是一种基于遗传算法和神经网络的优化算法。它利用神经网络来逼近目标函数，并使用遗传算法来搜索最优解。相比于其他优化算法，神经网络遗传算法具有更好的全局搜索能力和鲁棒性，可以有效地解决复杂的非线性函数极值问题。

2023-12-01 10:11:24

基于双向LSTM模型的文本分类示例

双向LSTM模型是一种神经网络模型，可以用于文本分类任务。以下是一个简单的示例，说明如何使用双向LSTM模型进行文本分类。

2023-11-15 10:12:59

inception模块是什么，它有什么作用？

Inception模块是一种高效的特征提取器，它能够在保证计算效率的前提下，增加网络的深度和宽度，提高网络的准确率和泛化能力。同时，通过使用不同尺度的卷积核，Inception模块能够在不同空间尺度上对输入数据进行特征提取，适应于各种不同类型的数据。此外，Inception模块还可以通过减少参数数量来减少模型的复杂度，防止过拟合现象的发生。本文就来详细介绍一下Inception模块。

2023-11-15 10:06:07

误差反向传播的概念和步骤

误差反向传播法，也称为Backpropagation算法，是一种常用于训练神经网络的方法。它利用链式法则，通过计算神经网络输出和标签之间的误差，将误差逐层反向传播到每个节点，从而计算出每个节点的梯度。这些梯度可以用来更新神经网络的权重和偏置，使网络逐渐接近最优解。

2023-11-10 10:04:50

基于卷积神经网络的图像去噪

卷积神经网络在图像去噪任务中表现出色，其原理是通过学习到的滤波器对噪声进行过滤，从而恢复出原始图像。本篇文章将详细介绍基于卷积神经网络的图像去噪方法。

2023-11-06 10:33:30