搭建机器学习算法模型时,一定要了解的术语概念:
偏差
算法模型为使函数更易于学习而做出的假设。它实际上是训练数据的错误率。当错误率较高时,称之为高偏差,当错误率较低时,称之为低偏差。
方差
训练数据和测试数据的错误率之间的差异称为方差。如果差异很大,则称为高方差,而当误差差异较小时,则称为低方差。
欠拟合
当一个统计模型或机器学习算法无法捕捉到数据的潜在趋势时,称为欠拟合,即它只在训练数据上表现良好,而在测试数据上表现不佳。欠拟合破坏了算法模型的准确性。它的出现仅仅意味着模型或算法不能很好地拟合数据。
欠拟合通常发生在构建算法模型的数据较少时,以及当我们尝试构建非线性数据较少的线性模型时。在这种情况下,机器学习模型的规则过于简单,算法模型可能会做出很多错误的预测。通过使用更多数据训练或并减少特征可以避免欠拟合。
简单来说,欠拟合是指既不能在训练数据上表现良好,也不能泛用到新数据集的模型。
产生欠拟合的原因
1、高偏差和低方差
2、使用的训练数据集的数据量少
3、模型简单
4、训练数据没有被清理,并且其中还包含噪声
减少欠拟合的办法
1、增加模型复杂性
2、增加特征数量
3、从数据中去除噪音
4、增加超参数的数量或增加训练的持续时间以获得更好的结果
过拟合
当一个算法模型接受大量的数据训练,并被数据集中的噪声和不准确的数据条目影响,导致在测试数据时会出现高方差。
避免过度拟合的解决方案是使用线性算法;如果我们使用决策树,则使用最大深度等参数。
产生过拟合的原因
1、高方差和低偏差
2、模型太复杂
3、训练数据集小
减少过拟合的办法
1、增加训练数据
2、降低模型复杂性
3、在训练阶段提前停止
4、正则化
5、使用dropout原理来解决过拟合问题。
最佳拟合
理想情况下,当算法模型0错误进行准确预测时。这种情况在过拟合和欠拟合之间是可以实现的。随着时间的推移,算法模型会不断学习,因此算法在训练和测试数据上的误差会不断减小。如果训练时间过长,模型会因为噪声的存在和有用的特征点减少而变得更容易过度拟合。因此,我们可以在误差开始增加之前的某个点停止,就能实现算法最佳拟合。