机器学习算法一定要了解的术语概念 偏差、方差、欠拟合、过拟合、最佳拟合

发布:2022-10-21 10:05:05
阅读:4809
作者:网络整理
分享:复制链接

搭建机器学习算法模型时,一定要了解的术语概念:

偏差

算法模型为使函数更易于学习而做出的假设。它实际上是训练数据的错误率。当错误率较高时,称之为高偏差,当错误率较低时,称之为低偏差。

方差

训练数据和测试数据的错误率之间的差异称为方差。如果差异很大,则称为高方差,而当误差差异较小时,则称为低方差。

欠拟合

当一个统计模型或机器学习算法无法捕捉到数据的潜在趋势时,称为欠拟合,即它只在训练数据上表现良好,而在测试数据上表现不佳。欠拟合破坏了算法模型的准确性。它的出现仅仅意味着模型或算法不能很好地拟合数据。

欠拟合通常发生在构建算法模型的数据较少时,以及当我们尝试构建非线性数据较少的线性模型时。在这种情况下,机器学习模型的规则过于简单,算法模型可能会做出很多错误的预测。通过使用更多数据训练或并减少特征可以避免欠拟合。

简单来说,欠拟合是指既不能在训练数据上表现良好,也不能泛用到新数据集的模型。

产生欠拟合的原因

1、高偏差和低方差

2、使用的训练数据集的数据量少

3、模型简单

4、训练数据没有被清理,并且其中还包含噪声

减少欠拟合的办法

1、增加模型复杂性

2、增加特征数量

3、从数据中去除噪音

4、增加超参数的数量或增加训练的持续时间以获得更好的结果

过拟合

当一个算法模型接受大量的数据训练,并被数据集中的噪声和不准确的数据条目影响,导致在测试数据时会出现高方差。

避免过度拟合的解决方案是使用线性算法;如果我们使用决策树,则使用最大深度等参数。

产生过拟合的原因

1、高方差和低偏差

2、模型太复杂

3、训练数据集小

减少过拟合的办法

1、增加训练数据

2、降低模型复杂性

3、在训练阶段提前停止

4、正则化

5、使用dropout原理来解决过拟合问题。

最佳拟合

理想情况下,当算法模型0错误进行准确预测时。这种情况在过拟合和欠拟合之间是可以实现的。随着时间的推移,算法模型会不断学习,因此算法在训练和测试数据上的误差会不断减小。如果训练时间过长,模型会因为噪声的存在和有用的特征点减少而变得更容易过度拟合。因此,我们可以在误差开始增加之前的某个点停止,就能实现算法最佳拟合。

扫码进群
微信群
免费体验AI服务