多类分类问题中单层神经网络的梯度推导

发布：2023-04-20 10:31:01

阅读：1860

作者：网络整理

单层神经网络通常指的是只有一层神经元的感知器模型。在多类分类问题中，我们需要将输入样本映射到输出类别，因此输出层的神经元数量应该等于类别数。

设输入样本为x\in\mathbb{R}^n，输出类别为y\in{1,2,\ldots,K}，其中K表示总共的类别数。我们将每个类别表示为一个one-hot向量\mathbf{y}\in{0,1}^K，其中第j个元素为1表示该样本属于第j个类别。我们使用softmax函数将输出层的原始输出转换为概率分布，即

\hat{\mathbf{y}}=\operatorname{softmax}(\mathbf{z})

其中\mathbf{z}=\mathbf{w}^\top\mathbf{x}+\mathbf{b}是输出层的输入，\mathbf{w}\in\mathbb{R}^{n\times K}是权重矩阵，\mathbf{b}\in\mathbb{R}^K是偏置向量，\operatorname{softmax}函数定义为\operatorname{softmax}(\mathbf{z})_j=\frac{e^{z_j}}{\sum_{k=1}^K e^{z_k}}

为了最小化交叉熵损失函数，我们需要计算损失函数对权重矩阵和偏置向量的梯度。假设训练集中共有m个样本，第i个样本的输入为\mathbf{x}^{(i)}，输出为\mathbf{y}^{(i)}，则交叉熵损失函数定义为

J(\mathbf{w},\mathbf{b})=-\frac{1}{m}\sum_{i=1}^{m}\sum_{j=1}^K y_j^{(i)}\log\hat{y}_j^{(i)}

其中y_j^{(i)}表示第i个样本属于第j个类别的真实标签，\hat{y}_j^{(i)}表示第i个样本属于第j个类别的预测概率。

我们可以使用梯度下降法来最小化损失函数，其更新规则为

\begin{aligned}\mathbf{w}&\leftarrow\mathbf{w}-\alpha\frac{\partial J}{\partial\mathbf{w}}\\mathbf{b}&\leftarrow\mathbf{b}-\alpha\frac{\partial J}{\partial\mathbf{b}}\end{aligned}

其中\alpha是学习率。

下面我们来推导损失函数对权重矩阵和偏置向量的梯度。

首先，我们计算损失函数对输出层输入\mathbf{z}的梯度：

\frac{\partial J}{\partial\mathbf{z}}=\frac{1}{m}(\hat{\mathbf{y}}-\mathbf{y})

其中\mathbf{y}是一个one-hot向量，\hat{\mathbf{y}}是softmax函数的输出。

接下来，我们计算损失函数对权重矩阵和偏置向量的梯度。

对于权重矩阵\mathbf{w}，有

\begin{aligned}\frac{\partial J}{\partial\mathbf{w}}&=\frac{\partial J}{\partial\mathbf{z}}\frac{\partial\mathbf{z}}{\partial\mathbf{w}}\&=\frac{1}{m}(\hat{\mathbf{y}}-\mathbf{y})\mathbf{x}^\top\end{aligned}

对于偏置向量\mathbf{b}，有

\begin{aligned}\frac{\partial J}{\partial\mathbf{b}}&=\frac{\partial J}{\partial\mathbf{z}}\frac{\partial\mathbf{z}}{\partial\mathbf{b}}\&=\frac{1}{m}(\hat{\mathbf{y}}-\mathbf{y})\end{aligned}

现在我们推导出了损失函数对权重矩阵和偏置向量的梯度，可以使用梯度下降法来更新参数。假设我们已经更新了\mathbf{w}和\mathbf{b}，则下一步可以用更新后的参数计算新的预测结果\hat{\mathbf{y}}，再计算新的损失函数J(\mathbf{w},\mathbf{b})，然后再使用梯度下降法来更新参数。这个过程可以重复多次，直到损失函数收敛或达到最大迭代次数。

总结一下，多类分类问题中单层神经网络的梯度推导包括以下几个步骤：

1.使用softmax函数将输出层的原始输出转换为概率分布；

2.计算交叉熵损失函数；

3.计算损失函数对输出层输入\mathbf{z}的梯度；

4.计算损失函数对权重矩阵和偏置向量的梯度；

5.使用梯度下降法来更新参数，重复多次直到收敛。

人工神经网络

大模型的低秩适应

大模型的低秩适应旨在通过用低维结构近似大型模型的高维结构来降低其复杂性。具体来说，这种方法旨在创建一个更小、更易于管理的原始模型表示，该表示仍然可以很好地执行特定的任务。

2023-12-29 14:42:38

使用Python中的合成数据集理解并实现残差神经网络

残差神经网络（ResNet）是由微软研究院的何凯明人提出的一种深度神经网络架构，通过使用残差块来解决深层网络的缺口等问题。在残差块中，通过引入跳跃连接，能够使网络学习残差，从而更轻松地训练出非常深的神经网络。

2023-12-27 15:18:06

基于树的算法在哪些情况下会优于神经网络？

基于树的算法和神经网络各有优势。基于树的算法在可解释性、处理离散特征、小型数据集和强调鲁棒性的情况下表现更优。

2023-12-22 14:41:46

微调大型语言模型（LLM）的数据注释

大型语言模型（LLM）的微调是指使用特定领域的数据对预训练模型进行再训练，以使其适应特定任务或领域。数据注释是微调过程中至关重要的一部分，它涉及将数据标记为模型需要理解的特定信息。

2023-12-19 10:25:22

LLM大语言模型和检索增强生成

LLM大语言模型通常采用Transformer架构，并通过大量文本数据进行训练。它们可以理解和生成自然语言，被广泛应用于聊天机器人、文本摘要、机器翻译等领域。知名的LLM大语言模型包括OpenAI的GPT系列、谷歌的BERT等。

2023-12-06 10:31:45

神经网络遗传算法在函数极值寻优

神经网络遗传算法函数极值寻优是一种基于遗传算法和神经网络的优化算法。它利用神经网络来逼近目标函数，并使用遗传算法来搜索最优解。相比于其他优化算法，神经网络遗传算法具有更好的全局搜索能力和鲁棒性，可以有效地解决复杂的非线性函数极值问题。

2023-12-01 10:11:24

基于双向LSTM模型的文本分类示例

双向LSTM模型是一种神经网络模型，可以用于文本分类任务。以下是一个简单的示例，说明如何使用双向LSTM模型进行文本分类。

2023-11-15 10:12:59

inception模块是什么，它有什么作用？

Inception模块是一种高效的特征提取器，它能够在保证计算效率的前提下，增加网络的深度和宽度，提高网络的准确率和泛化能力。同时，通过使用不同尺度的卷积核，Inception模块能够在不同空间尺度上对输入数据进行特征提取，适应于各种不同类型的数据。此外，Inception模块还可以通过减少参数数量来减少模型的复杂度，防止过拟合现象的发生。本文就来详细介绍一下Inception模块。

2023-11-15 10:06:07

误差反向传播的概念和步骤

误差反向传播法，也称为Backpropagation算法，是一种常用于训练神经网络的方法。它利用链式法则，通过计算神经网络输出和标签之间的误差，将误差逐层反向传播到每个节点，从而计算出每个节点的梯度。这些梯度可以用来更新神经网络的权重和偏置，使网络逐渐接近最优解。

2023-11-10 10:04:50

基于卷积神经网络的图像去噪

卷积神经网络在图像去噪任务中表现出色，其原理是通过学习到的滤波器对噪声进行过滤，从而恢复出原始图像。本篇文章将详细介绍基于卷积神经网络的图像去噪方法。

2023-11-06 10:33:30