什么是迁移学习？迁移学习的策略、步骤、区别和概念

发布：2022-12-06 15:05:35

阅读：14822

作者：网络整理

迁移学习帮助我们从老的机器学习任务中获得可以被复用的训练模型，只需要少量数据就能重新应用于新的训练任务。如今，自然语言处理和图像识别等领域被认为是迁移学习研究的热点领域。本文就来详细了解什么是迁移学习。

经典迁移学习策略

根据任务的领域、数据的可用性，应用不同的迁移学习策略和技术。

1、归纳迁移学习

归纳迁移学习要求源域和目标域相同，尽管模型处理的具体任务不同。这些算法尝试使用来自源模型的知识并将其应用于改进目标任务。预训练模型已经具有领域特征方面的专业知识，并且比从头开始训练会处于更好的起点。

根据源域是否包含标记数据，归纳迁移学习进一步分为两个子类。这些分别包括多任务学习和自学学习。

2、转导迁移学习

源任务和目标任务的领域不完全相同但相互关联的场景可使用转导迁移学习策略。人们可以得出源任务和目标任务之间的相似性。这些场景通常在源域中有大量标记数据，而目标域中只有未标记数据。

3、无监督迁移学习

无监督迁移学习类似于归纳迁移学习。唯一的区别是算法侧重于无监督任务，并且在源任务和目标任务中都涉及未标记的数据集。

4、基于域的相似性并独立于训练的数据样本类型的策略

同构迁移学习

开发并提出了同构迁移学习方法来处理域具有相同特征空间的情况。在同构迁移学习中，域在边际分布上只有微小的差异。这些方法通过纠正样本选择偏差或协变量偏移来调整域。

异构迁移学习

异构迁移学习方法旨在解决具有不同特征空间的源域和目标域的问题以及不同数据分布和标签空间等其他问题。异构迁移学习应用于跨领域任务，例如跨语言文本分类、文本到图像分类等。

迁移学习6个步骤

1.获取预训练模型

第一步是根据任务选择我们希望保留的预训练模型作为我们训练的基础。迁移学习需要预训练源模型的知识与目标任务域之间的强相关性才能兼容。

2.创建基础模型

基础模型是在第一步中选择与任务密切相关的架构，可能存在这样一种情况，基础模型在最终输出层中的神经元数量超过用例中所需的数量。在这种情况下，需要移除最终输出层并进行相应更改。

3.冻结起始层

冻结预训练模型的起始层对于避免使模型学习基本特征的至关重要。如果不冻结初始层，将失去所有已经发生的学习。这与从头开始训练模型没有什么不同，会导致浪费时间、资源等。

4.添加新的可训练层

从基础模型中重用的唯一知识是特征提取层。需要在特征提取层之上添加额外的层来预测模型的特殊任务。这些通常是最终的输出层。

5.训练新层

预训练模型的最终输出很可能与我们想要的模型输出不同，在这种情况下，必须使用新的输出层来训练模型。

6.微调模型

为了提高模型的性能。微调涉及解冻基础模型的某些部分，并以非常低的学习率在整个数据集上再次训练整个模型。低学习率将提高模型在新数据集上的性能，同时防止过度拟合。

传统机器学习与迁移学习的区别

1.传统机器学习模型需要从头开始训练，计算量大，需要大量数据才能达到高性能。另一方面，迁移学习计算效率高，有助于使用小数据集获得更好的结果。

2.传统机器学习采用孤立的训练方法，每个模型都针对特定目的进行独立训练，不依赖于过去的知识。与此相反，迁移学习使用从预训练模型中获取的知识来处理任务。

3.迁移学习模型比传统的ML模型更快地达到最佳性能。这是因为利用来自先前训练的模型的知识（特征、权重等）的模型已经理解了这些特征。它比从头开始训练神经网络更快。

深度迁移学习的概念

许多模型预训练的神经网络和模型构成了深度学习背景下迁移学习的基础，这被称为深度迁移学习。

要了解深度学习模型的流程，必须了解它们的组成部分。深度学习系统是分层架构，可以在不同层学习不同的特征。初始层编译更高级别的功能，随着我们深入网络，这些功能会缩小到细粒度的功能。

这些层最终连接到最后一层以获得最终输出。这打开了使用流行的预训练网络的限制，无需将其最后一层作为其他任务的固定特征提取器。其关键思想是利用预训练模型的加权层来提取特征，但在使用新任务的新数据训练期间不更新模型的权重。

深度神经网络是分层结构，具有许多可调的超参数。初始层的作用是捕获通用特征，而后面的层更侧重于手头的明确任务。微调基础模型中的高阶特征表示以使其与特定任务更相关是有意义的。我们可以重新训练模型的某些层，同时在训练中保持一些冻结。

进一步提高模型性能的方法是重新训练或微调预训练模型顶层的权重，同时训练分类器。这将强制从模型源任务中学习到的通用特征图中更新权重。微调将允许模型在目标域中应用过去的知识并重新学习一些东西。

此外，应该尝试微调少数顶层而不是整个模型。前几层学习基本的通用的特征，这些特征可以泛化到几乎所有类型的数据。微调的目的是使这些专门的特征适应新的数据集，而不是覆盖通用的学习。

机器学习

云启未来，智绘中国，网易伏羲亮相《云上的中国3：剧变中的AI时代》

在数字化转型的时代洪流中，每一项技术的跃进都是对未来的深刻探索与描绘。近日，网易伏羲作为国内人工智能领域的领军者，受邀参与《云上的中国3：剧变中的AI时代》纪录片访谈，凭借其在人工智能领域的卓越成就和创新实践，成为展示中国AI创新力量的重要代表之一。

2024-06-18 10:13:05

2023爱分析大模型“璀璨星辰”Top榜揭晓，网易伏羲丹青模型成功入选

1月9日，以“智能涌现价值焕新”为主题的2024爱分析·AI与大模型高峰论坛在北京成功举办。会上，大模型“璀璨星辰”Top榜单重磅发布，经过爱分析及权威科研机构的层层征集评选，网易伏羲丹青模型最终脱颖而出，成功上榜。

2024-01-15 14:28:03

什么是TiDE模型

TiDE即Temporal Information-Driven Encoder-Decoder，是一种长期预测模型，旨在对时间序列数据进行准确的长期预测。该模型采用编码器-解码器架构，由多层感知器构建。TiDE模型的设计旨在克服时间序列预测中的挑战，如长期依赖关系、序列中的噪声和不确定性。该模型结合了线性模型的简单性和速度，同时能够有效处理协变量和非线性依赖。

2024-01-10 10:21:57

网易伏羲智能装载机平台获评2023年工业元宇宙优秀案例

12月26日-27日，2023工业文化发展大会在浙江宁波成功举办。在大会期间举办的工业元宇宙趋势会议上，工业元宇宙协同发展组织2023优秀案例重磅发布。网易伏羲智能装载机平台创新应用经过工信部工业文化发展中心组织征集评选，并通过实地调研、座谈论证和专家评审等环节的严格筛选，最终脱颖而出，被评为2023年工业元宇宙优秀案例。

2024-01-02 10:13:28

大模型的低秩适应

大模型的低秩适应旨在通过用低维结构近似大型模型的高维结构来降低其复杂性。具体来说，这种方法旨在创建一个更小、更易于管理的原始模型表示，该表示仍然可以很好地执行特定的任务。

2023-12-29 14:42:38

使用逻辑回归、朴素贝叶斯和词向量进行情感、类比和词翻译

自然语言处理技术的发展提供了更多处理文本数据的可能性。使用机器学习和语言模型能够更好地理解和分析文本背后的信息。本文将探讨如何运用逻辑回归、朴素贝叶斯和词向量这些技术，来进行情感分析、类比推理以及词语翻译，并揭示语言和情感背后的奥秘。

2023-12-28 15:48:02

使用Python中的合成数据集理解并实现残差神经网络

残差神经网络（ResNet）是由微软研究院的何凯明人提出的一种深度神经网络架构，通过使用残差块来解决深层网络的缺口等问题。在残差块中，通过引入跳跃连接，能够使网络学习残差，从而更轻松地训练出非常深的神经网络。

2023-12-27 15:18:06

动态预测的训练过程、检验方法及实现示例

动态预测在机器学习中扮演着至关重要的角色。它允许模型根据新的输入数据进行实时的预测，从而使模型能够适应不断变化的环境。基于机器学习的动态预测模型可以应用于各行各业的实时预测和分析中，对未来的数据预测和趋势分析起到重要的指导作用。通过人工智能算法，机器学习使计算机从已有数据中自动学习，对新数据进行预测，并不断完善自身。这种动态预测的能力使得机器学习在许多领域中都具有广泛的应用价值。

2023-12-25 16:16:17

大模型知识图嵌入

大模型知识图嵌入是指利用深度学习模型将知识描绘的实体和关系表示为低维连续的支撑空间的技术。知识图嵌入的目的是以知识描绘的实体和关系表示为连续的支撑空间，便于连续的支撑在提供空间中计算实体之间的相似性、关系的强度以及进行其他关于知识图的推理任务。

2023-12-21 14:57:02

机器学习中的分类变量编码

在机器学习中，分类变量编码是一种重要的预处理步骤，它用于将分类变量（也称为类别变量或离散变量）转换为机器学习算法可以理解和处理的格式。下面我们将详细介绍分类变量的概念以及常用的编码技术。

2023-12-20 09:57:57