偏差方差权衡是机器学习中的一个重要概念,它表示模型在减少训练集错误的能力与其很好地泛化到新的未见示例的能力之间的张力。
一般来说,随着模型更复杂,例如通过向决策树添加更多节点,模型的偏差会减少,因为模型会自行适应训练集的特定模式和特性,因此模型失去了泛化能力并在测试集上提供良好的预测,即方差增加。
模型出现错误情况
模型预测中的错误可以分解为三个部分:
1.数据本身的固有噪声。这种噪音可能是由多种原因引起的,例如生成我们的测量值的物理设备的内部噪音,或者将数据输入我们的数据库的人为错误。
2.模型的偏差,表示模型的预测与数据的真实标签之间的差异。
3.模型的方差,表示模型的预测在不同训练集上的变化情况。
通常,我们无法控制模型内部噪声,只能控制预测误差的偏差和方差分量。由于给定模型的预测误差是恒定的,因此尝试减少其偏差会增加其方差,反之亦然,也因此有了偏差方差权衡的概念。
找到合适的平衡点
理想的模型会最小化偏差和方差。然而,在实践中,模型无法同时实现这两个目标。
当模型过于简单时,例如使用线性回归对复杂函数建模,它会忽略数据集中有用的信息,因此会产生很高的偏差。在这种情况下,我们说模型欠拟合数据。
当模型过于复杂时,例如使用高阶多项式对简单函数建模,它会适应特定的训练集,因此具有高方差。在这种情况下,我们说模型过度拟合数据。
因此,在建设和训练模型时应该努力找到一个介于过度拟合和欠拟合之间的模型。有多种方法可以找到此类模型,具体取决于使用的特定机器学习算法。