人工神经网络中的激活函数详解

发布：2022-11-30 15:01:13

阅读：7475

作者：网络整理

激活函数通过生成加权和然后向其添加偏差来确定是否刺激神经元。为了向神经元的输出添加非线性，创建了激活函数，它用于确定神经网络的输出，例如是或否。获得的值取决于函数，一般会映射在0和1或-1和1之间。

为什么神经网络需要激活函数？

我们知道激活函数的目的是为神经网络添加非线性。激活函数在神经网络前向传播过程中在每一层引入了一个额外的计算，这个计算是值得的。

如果没有激活函数，那么每个神经元将仅使用权重和偏差对输入执行线性变换，因此在神经网络中附加了多少隐藏层就不重要了，所有层的行为都相同，神经网络变得非常简单。在这种情况下，让模型学习稍微复杂的任务就非常困难了。

激活函数的两个主要类别

线性激活函数
非线性激活函数

线性激活函数

线性函数

如图所见，该函数是一条线或线性的，其范围是负无穷大到无穷大。因此，不会使用范围来限制函数的输出。输入到神经网络的典型数据的复杂性或其他参数不受影响。

二进制阶跃函数

最基本的激活函数类型之一是阶跃函数。在此考虑了一个阈值，如果净输入的值超过阈值，就会触发神经元。如下图表示：

非线性激活函数

最常用的激活函数是非线性激活函数。激活函数以非线性方式转换输入，使其能够学习和执行更困难的任务。它有助于模型对各种数据的泛化或适应，并有助于输出差异化。非线性函数的激活通常根据其范围或曲率进行分类。

常用的非线性激活函数有这么几个：

Sigmoid激活函数

S形函数曲线具有S形外观，我们使用sigmoid函数主要是因为它的范围在0到1之间。因此，它特别适用于输出为概率预测的模型。该函数可能采用多种形式并且是可微分的。因此，我们可以确定任意两点之间的sigmoid曲线的斜率。

Tanh激活函数

Tanh就像是Sigmoid激活函数的优化版本。tanh函数的范围是从-1到1。Tanh也是S形曲线，函数是0均值，即会把零输入将映射到零附近，而负输入将被强映射为负。tanh函数主要用于将数据分为两组。

ReLU激活函数

ReLU是使用最多的激活函数。因为几乎所有的卷积神经网络和深度学习系统都使用它。如下图所示，ReLU函数仅底部固定，其范围是0到无穷大。当x小于零时，f(x)等于零，当x大于或等于零时，f(x)等于x。

然而，问题在于所有负值立即变为零，这降低了模型有效拟合或从数据训练的能力。这意味着ReLU激活函数的任何负输入在图中立即变为零，如果没有合理的映射负值反过来又会影响结果图。

Leaky ReLU激活函数

此函数是ReLU激活函数的变体，在Leaky ReLU激活函数中，我们将Relu函数定义为x的一个小线性分量，而不是x小于0时取0。它在数学上表示为：

如何选择合适的激活函数？

需要根据正在解决的预测问题的类型来匹配输出层的激活函数。根据经验，可以先使用ReLU激活函数，然后如果ReLU不能提供最佳结果，则转向其他激活函数。

激活函数使用指南

ReLU激活函数常用于隐藏层。
Sigmoid、Logistic、和Tanh函数不应在隐藏层中使用，容易导致梯度消失。
回归问题使用线性激活函数。
二元分类问题使用Sigmoid或Logistic激活函数。
多标签分类问题使用Sigmoid激活函数。
卷积神经网络(CNN)使用ReLU激活函数。
循环神经网络使用Tanh或Sigmoid激活函数。

关于激活函数，我们还需要知道在人工神经网络使用激活函数时我们需要考虑到梯度爆炸、梯度消失的情况。

梯度爆炸：当梯度爆炸时，会导致网络不稳定，学习无法完成。权重的值也可能变得太大以至于溢出。

梯度消失：部分激活函数输入的较大或较小变化会引起会导致梯度太小而无法有效地进行训练。

人工神经网络

大模型的低秩适应

大模型的低秩适应旨在通过用低维结构近似大型模型的高维结构来降低其复杂性。具体来说，这种方法旨在创建一个更小、更易于管理的原始模型表示，该表示仍然可以很好地执行特定的任务。

2023-12-29 14:42:38

使用Python中的合成数据集理解并实现残差神经网络

残差神经网络（ResNet）是由微软研究院的何凯明人提出的一种深度神经网络架构，通过使用残差块来解决深层网络的缺口等问题。在残差块中，通过引入跳跃连接，能够使网络学习残差，从而更轻松地训练出非常深的神经网络。

2023-12-27 15:18:06

基于树的算法在哪些情况下会优于神经网络？

基于树的算法和神经网络各有优势。基于树的算法在可解释性、处理离散特征、小型数据集和强调鲁棒性的情况下表现更优。

2023-12-22 14:41:46

微调大型语言模型（LLM）的数据注释

大型语言模型（LLM）的微调是指使用特定领域的数据对预训练模型进行再训练，以使其适应特定任务或领域。数据注释是微调过程中至关重要的一部分，它涉及将数据标记为模型需要理解的特定信息。

2023-12-19 10:25:22

LLM大语言模型和检索增强生成

LLM大语言模型通常采用Transformer架构，并通过大量文本数据进行训练。它们可以理解和生成自然语言，被广泛应用于聊天机器人、文本摘要、机器翻译等领域。知名的LLM大语言模型包括OpenAI的GPT系列、谷歌的BERT等。

2023-12-06 10:31:45

神经网络遗传算法在函数极值寻优

神经网络遗传算法函数极值寻优是一种基于遗传算法和神经网络的优化算法。它利用神经网络来逼近目标函数，并使用遗传算法来搜索最优解。相比于其他优化算法，神经网络遗传算法具有更好的全局搜索能力和鲁棒性，可以有效地解决复杂的非线性函数极值问题。

2023-12-01 10:11:24

基于双向LSTM模型的文本分类示例

双向LSTM模型是一种神经网络模型，可以用于文本分类任务。以下是一个简单的示例，说明如何使用双向LSTM模型进行文本分类。

2023-11-15 10:12:59

inception模块是什么，它有什么作用？

Inception模块是一种高效的特征提取器，它能够在保证计算效率的前提下，增加网络的深度和宽度，提高网络的准确率和泛化能力。同时，通过使用不同尺度的卷积核，Inception模块能够在不同空间尺度上对输入数据进行特征提取，适应于各种不同类型的数据。此外，Inception模块还可以通过减少参数数量来减少模型的复杂度，防止过拟合现象的发生。本文就来详细介绍一下Inception模块。

2023-11-15 10:06:07

误差反向传播的概念和步骤

误差反向传播法，也称为Backpropagation算法，是一种常用于训练神经网络的方法。它利用链式法则，通过计算神经网络输出和标签之间的误差，将误差逐层反向传播到每个节点，从而计算出每个节点的梯度。这些梯度可以用来更新神经网络的权重和偏置，使网络逐渐接近最优解。

2023-11-10 10:04:50

基于卷积神经网络的图像去噪

卷积神经网络在图像去噪任务中表现出色，其原理是通过学习到的滤波器对噪声进行过滤，从而恢复出原始图像。本篇文章将详细介绍基于卷积神经网络的图像去噪方法。

2023-11-06 10:33:30