Transformers架构介绍(transformer模型用来做什么)

发布:2023-02-03 14:35:26
阅读:6855
作者:网络整理
分享:复制链接

Transformers是一种基于自注意力机制的模型。它遵循编码器-解码器架构流程来实现结果。常见的基于Transformer架构的模型有BERT、RoBERTa等。

Transformers架构是为序列到序列建模等自然语言处理任务而开发的。与RNN、LSTM等架构相比,Transformer的主要优势在于其自注意力机制,可帮助Transformer非常准确地捕获输入句子标记之间的远程依赖性和相关性,并降低计算时间。

这种基于编码器-解码器的架构包含多层编码器和解码器。每个编码器在内部分为子层,分别是多头自注意层和位置全连接前馈神经网络。类似地,每个解码器都有两个相同的子层,它还有第三个子层,称为编码解码器注意力层,它在编码器堆栈的输出上应用自注意力。

这些子层中的每一个在它们之后都有归一化层,并且每个前馈神经网络在它们周围都有残差连接。这种剩余连接作为梯度和数据流向架构中后续层的自由路径。它有助于在不存在梯度消失问题的情况下训练深度神经网络。

注意层的输出被馈送到前馈神经网络,该网络将其转换为向量表示并将其发送到下一个注意层。解码器模块的任务是将编码器的注意力向量转换为输出数据。在训练阶段,解码器可以访问编码器产生的注意力向量和预期结果。

解码器使用相同的标记化、词嵌入和注意力机制来处理预期结果并创建注意力向量。然后它传递这个注意力向量和编码器模块中的注意力层,后者在输入和输出值之间建立关系。与编码器模块一样,解码器注意力向量通过前馈层传递。然后将其结果映射到一个非常大的向量,该向量是目标数据的大小。

扫码进群
微信群
免费体验AI服务