ULMFiT(通用语言模型微调)是一种用于自然语言处理任务的迁移学习方法。它使用预训练语言模型,比如Transformer架构,在大量文本数据上捕获语言模式,然后针对情感分析、文本分类或问答等特定任务对其进行微调。
ULMFiT背后的关键思想是使用预训练模型作为特征提取器,然后在这些特征之上训练分类器进行预测。这允许模型利用从大量数据语料库中学习到的丰富语言表示,并减少从头开始训练新模型所需的数据量和计算资源。
ULMFiT已被证明优于传统的NLP模型,并在一系列NLP任务上取得了最先进的结果,使其成为NLP中迁移学习的流行且强大的工具。
ULMFiT一般由三个阶段组成:
1.通用领域LM预训练
在通用领域语料库上训练以捕获语言在不同层中的一般特征。使用大型数据集来训练模型,这是一项无监督的学习任务。它能够捕获长期依赖关系、等级关系和情绪。
2.目标任务LM微调
现在模型已经捕获了语言的一般特征。为了使其对特定领域的用例有用,可以使用目标任务数据微调LM的参数。数据中词汇的分布可能与预训练模型不同。这个过程是一个半监督学习任务。
3.目标任务分类器微调
至此,已经到了这个模型的最后阶段,在这个阶段,分类器使用相同的架构和两个额外的线性块在目标任务上进行微调。这是一个监督学习任务。
这些特定于任务的分类器层中的参数是唯一可以从头开始学习的参数。出于这个原因,作者将最后一个隐藏状态与隐藏状态的最大池化和平均池化表示连接起来。这些特定于任务的分类器层中的参数是唯一可以从头开始学习的参数。