自然语言处理(NLP)中的注意力机制

发布：2022-12-27 16:23:51

阅读：7812

作者：网络整理

注意力的概念

注意力的概念是因神经机器翻译的seq2seq模型使用而被广泛传播。由于编码器传递到解码器的信息量有限会导致模型的性能面临瓶颈，而注意力概念可以克服这个瓶颈。

简单来讲，除了将最终隐藏状态作为初始隐藏状态馈送到解码器之外，模型在解码阶段每次生成新元素时都利用编码器的所有隐藏状态（所有潜在有用信息）。这样一来，模型不仅在解码过程中有更多的信息可以使用，还能在生成输出序列的不同部分时学会“注意”输入序列的最相关部分。

注意力的一般框架思路

尽管注意力用于不同的体系结构并且具有不同的实现细节，但有一些共同点。考虑想要通过具有某种架构的神经网络进行预测的场景，我们得到了一个包含一些编码信息的向量。现在可以使用这个向量进行预测，例如，将其馈送到全连接层，然后是softmax层等。

然而，事实证明它并没有给出一个令人满意的预测结果。它表现不佳可能有很多可能的原因，但一种思路如下：

1.使用的这个向量不包含对实现良好预测有用的所有信息。

通常，做出良好预测所需的信息会分布在许多向量中，比如在NLP任务的情况下，有一个被标记编码的向量序列。尽管已经考虑了所有分布式信息，但随着它在神经网络中更深入地流动，一些信息将不可避免地丢失。

2.有用的不仅是这些向量中包含的各个信息片段，还有它们与当前向量之间的关系。

当前向量可能需要与其他向量进行交互和通信，并帮助确定要传递哪些信息。因此，需要一种更加聪明的方法来组合拥有的所有潜在有用的向量，并让模型能够学习要注意什么，以便做出更好的预测。

考虑到这两点后，假设现在有这么一个向量以及其他符合条件的向量，这些向量对于做出预测很重要，而处理这些信息的方法，即是注意力的一般框架。

在这个框架中接受查询并让它与键一一交互：

1、查询和每个键之间的特定交互，它可以是内积或加法或连接的组合以及馈送到小型神经网络等。使用从反向传播训练的具有相同参数的相同操作来处理查询每个不同的键。此外，要求这些操作后的最终输出是单个值。这些输出值被称为能量。在查询和所有关键向量上重复这个过程后，将得到一系列的能量。
2、使用softmax层对所有能量进行归一化。
3、对值向量进行加权求和，权重为归一化能量。这会产生一个上下文向量，其维度与一个值向量相同，其中包含以智能方式组合的所有元素的信息。
4、可以一起使用上下文向量和查询向量来进行预测，例如，将它们连接起来，根据需要提供给神经网络，然后是softmax层。

以上即为注意力的一般框架的流程，下面就来看看这个框架是如何应用到不同任务中的。

情绪分析任务

情感分析类型的任务是一种分类任务，输入是一段文本，输出是对应于其中一种可能情感的标签。在将文本输入神经网络之前，需要对其进行清理、格式化、标记化并转换为基于词汇表的一系列索引。虽然这不是seq2seq而是seq2one，但注意机制仍然适用并有助于提高性能。

普通的单向或双向基于LSTM的网络可用于执行此任务。在这种情况下，只有最后一层的最终隐藏状态（单向）或两个最终隐藏状态（双向，一个来自前向，一个来自后向）用于通过传递给分类头进行预测，例如全连接层和softmax。仅由最终隐藏状态携带的有限信息为模型的性能设置了瓶颈。

日期翻译任务

日期翻译是字符级seq2seq任务的一个例子。此任务的目标是将人类可读的日期作为输入，例如“2022年12月27日”，并输出表示与输入相同日期的机器可读日期，例如“2022-12-27”。

基于注意力的模型在解码器中的LSTM单元之前有一个注意力块。在每个循环步骤中，注意块的输出上下文向量和最后一步的输出被连接起来，然后馈送到LSTM单元。注意力的另一种实现是在LSTM单元和输出上下文向量之后将注意力块与当前步骤的输出向量连接起来，然后再馈送到全连接层以预测下一个标记。这里的注意力块遵循通用框架，键和值向量是同一组向量，即编码器最后一层的隐藏状态，查询和每个键之间的交互是一个小型神经网络。

在解码阶段，单向LSTM一次预测一个标记，因此每个步骤的输入有两种选择：从上一步输出的当前步骤预测的标记或基本事实。这里可以定义一个超参数，以控制训练期间使用的输入标记中有多少百分比是基本事实，并可以对其进行实验以优化模型性能。

人工智能机器学习自然语言处理NLP

人工智能驱动智能制造：重塑制造业的未来格局

人工智能（AI）作为第四次工业革命的核心驱动力，正在深刻重构制造业的底层逻辑。通过将深度学习、计算机视觉、自然语言处理等技术与制造流程深度融合，AI不仅提升了生产效率，更推动了从“自动化”向“智能化”的范式转变。智能制造的核心在于数据驱动决策，而AI通过实时感知、动态分析和自主优化，使制造系统具备了类人化的认知能力，从而实现从“人控”到“机控”的系统性升级。

2025-07-10 18:03:56

人工智能之智能制造：重塑现代工业新生态

人工智能之智能制造指通过机器学习、物联网（IoT）、大数据分析等技术，实现生产流程的自主优化与精准决策。其核心在于构建“感知-分析-执行”闭环，将设备、物料、人员数据转化为实时洞察，驱动制造系统从自动化向智能化跃迁。

2025-07-10 18:03:15

人工智能之智慧医疗：重塑医疗行业的未来图景

随着人工智能技术的快速发展，智慧医疗正成为推动医疗行业变革的重要力量。通过深度学习、计算机视觉、自然语言处理等技术的融合，人工智能正在优化诊疗流程、提升医疗效率、改善患者体验，并为构建高效、精准、普惠的医疗体系提供创新解决方案。

2025-07-09 17:43:12

人工智能之智慧医疗：技术革新与医疗未来

人工智能之智慧医疗指通过机器学习、自然语言处理、影像识别等技术，优化疾病诊疗、药物研发及健康管理流程的智能化体系。其核心在于将医疗数据（如电子病历、影像资料、基因序列）转化为可分析的数字化资源，为临床决策提供科学支持。

2025-07-09 17:42:26

人工智能之智慧交通：重塑未来出行的新引擎

随着城市化进程的加速和科技的飞速发展，人工智能技术正成为推动智慧交通建设的核心力量。通过深度学习、计算机视觉、物联网等先进技术的融合，人工智能正在重新定义交通管理、出行体验和运输效率，为构建高效、安全、绿色的交通系统提供创新解决方案。

2025-07-08 18:00:53

人工智能之智慧交通：重塑未来出行生态

人工智能之智慧交通指通过机器学习、计算机视觉、大数据分析等技术，对交通系统中的车辆、道路、信号及用户行为进行智能化协同管理，实现出行效率、安全性与可持续性的全面优化。

2025-07-08 17:58:02

可穿戴人工智能：技术革新与未来趋势

可穿戴人工智能通过融合传感器技术、人工智能算法和人机交互设计，正在重塑智能设备的形态与功能。其核心在于实现设备的自主感知、实时计算与场景化应用。例如，新型可穿戴设备搭载多模态传感器，可同步采集用户的心率、体温、运动轨迹等生理数据，并通过边缘计算技术完成数据处理，减少对云端的依赖。在交互方式上，语音识别、手势控制和脑机接口技术的进步，使用户能够通过自然语言或肢体动作与设备互动。例如，基于AI的语音助手可在无需触屏操作的情况下完成指令执行，而手势识别技术则适用于运动或驾驶等双手受限的场景。此外，柔性电子材料和微型化芯片的突破，推动了设备向轻量化、隐形化方向发展，如智能戒指、隐形眼镜等形态的探索。

2025-07-07 17:35:24

可穿戴人工智能：无缝融入生活的智能进化

可穿戴人工智能的核心在于智能化演进。基础设备仅被动记录信息，而智能化的穿戴设备则能主动理解、预测并响应。借助复杂算法与机器学习，设备深度解析各类传感器实时捕获的身体活动、生理状态乃至周围环境信息。微型处理器完成本地运算，降低延迟保护隐私；云端协同则提供无限计算潜力。设备不仅是数据接收端，更成为具备分析、预测及辅助决策能力的贴身智能伙伴。

2025-07-07 17:34:47

人工智能开发工具：推动技术创新的核心驱动力

人工智能开发工具涵盖多个维度，满足不同场景需求。代码生成与辅助工具通过自然语言解析业务逻辑，快速生成可执行代码，显著提升开发效率。低代码/无代码平台以可视化界面为核心，允许非技术用户通过拖拽操作搭建AI应用，缩短项目周期。智能体开发框架则聚焦多代理系统协作，支持复杂任务的自动化编排与执行。此外，模型训练与部署平台提供全流程解决方案，涵盖数据预处理、算法优化到云端部署，助力企业高效完成模型迭代。

2025-07-04 17:19:15

人工智能开发工具：加速智能时代的核心引擎

人工智能开发工具正重塑技术创新流程，通过模块化组件、自动化训练和可视化部署，将算法能力转化为行业解决方案。这类工具的核心价值在于降低开发门槛，使企业能够快速构建专属智能系统。本文将从工具类型、核心功能、场景赋能及技术演进四个维度，解析人工智能开发工具如何推动产业智能化进程。

2025-07-04 17:17:14