自训练是一种半监督分类方法,涉及平滑度和聚类假设,因此,自训练也称为自标记或决策导向学习。
一般来说,当标记的数据集包含大量有关数据生成过程信息并且假设未标记的样本仅负责微调手头的算法时,自训练是一个很好的选择。
然而,当这些条件不满足时,自训练的结果就不理想。因此自训练在很大程度上取决于标记样本。
自训练的每一个步骤,会根据当前的决策函数对一部分未标记的数据点进行标记,并使用预测作为附加标记点对监督模型进行重新训练。
自训练的工作原理
自训练算法以拟合另一个先前学习的监督模型预测的伪标签。
自训练有这几个关键点
1、标记数据实例分为训练集和测试集,其中分类算法在标记训练数据上进行训练。评估所有数据点,并使用置信向量表示每个预测。
2、选择与最大置信度相关的前K个值并将其添加到标记数据集中。
3、分类器预测标记测试数据实例的类别标签,并使用选择的指标评估分类器性能。
4、分类器使用新的标记数据集重新训练。
自训练利用标记数据集的结构来发现合适的分离超曲面。在这个过程之后,对未标记的样本进行评估,并将具有足够大置信度的分类点包含在新的训练集中,自训练算法会重复这个过程,直到每个数据点都被分类。