半监督学习是同时使用标记和未标记的数据,它是一种介于监督学习和无监督学习之间的混合技术。
半监督的核心思想是根据数据是否有标签来区别处理:对于有标签的数据,算法将使用传统的监督来更新模型权重;对于未标记的点,该算法最小化其他类似训练示例之间的预测差异。
半监督学习与监督学习、无监督学习的关系
监督训练更新模型权重以最小化预测和标签之间的平均差异。然而,对于有限的标记数据,这可能会找到一个对标记点有效但不会泛化到整个分布的决策边界。
无监督学习试图根据某些特征空间中的相似性将点聚集在一起。但是,如果没有标签来指导训练,无监督算法可能会找到次优集群。
因此,如果没有足够的标记数据,或者在困难的聚类设置中,有监督和无监督学习可能无法达到预期的结果。然而,半监督学习同时使用标记和未标记数据,标记的数据为模型预测奠定了基础,并且通过确定类以及集群来为学习问题添加结构。
未标记的数据提供上下文,将模型暴露给尽可能多的数据,以此更准确地估计模型分布。通过标记数据和未标记数据,就可以训练更准确和更有弹性的模型。
半监督机器学习是监督学习和无监督学习的结合。它使用少量标记数据和大量未标记数据,提供了无监督和监督学习的好处,同时避免了寻找大量标记数据的挑战。这意味着您可以训练模型来标记数据,而无需使用尽可能多的标记训练数据。
半监督学习的工作原理
半监督学习使用伪标记来训练模型,并结合许多神经网络模型和训练方法。
就像在监督学习中一样,用少量带标签的训练数据训练模型,直到模型输出好的结果。然后将其与未标记的训练数据集一起使用来预测输出,注意这些输出是伪标签。
再将标记训练数据中的标签与上面提到的伪标签链接起来。将标记训练数据中的数据输入与未标记数据中的输入链接起来。
然后,以标记集相同的方式训练模型,以减少错误并提高模型的准确性。