对于使用机器学习模型帮助他们做出决策的工作人员来说,知道何时信任模型的预测并不总是一件容易的事,尤其是这些模型通常非常复杂,以至于它们的内部运作规律仍然是个谜。
有时会使用一种称为选择性回归的技术,在该技术中,算法模型会估计每个预测的置信水平,并在其置信度过低时拒绝预测。然后人类可以检查这些案例,收集更多信息,并手动对每个案例做出决定。
虽然选择性回归已被证明可以提高算法模型的整体性能,但麻省理工学院和MIT-IBM沃森人工智能实验室的研究人员发现,该技术可能对数据代表性不足的人群产生相反的效果。随着算法的可信度随着选择性回归的增加而增加,其做出正确预测的机会也会增加,但这种情况并不绝对。
例如,贷款审批的算法模型错误率很低,但它实际上可能会对某一类申请人群做出错误的评估。发生这种情况的原因是模型的置信度度量是使用代表人数过多的数据组进行训练的,因此对于代表人数不足的数据组可能不准确。
麻省理工学院的研究人员就开发了两种可以解决这个问题的算法。算法结果表明,这两种算法减少了影响边缘化子组的性能差异。
回归是一种估计因变量和自变量之间关系的技术。在机器学习中,回归分析通常用于预测任务,例如根据房屋的特征(卧室数量、平方英尺等)预测房屋的价格。通过选择性回归,算法模型可以做出两种选择,执行每一个数据,它可以做出预测或放弃预测。
当算法放弃预测时,会减少它进行预测的样本比例,这被称为覆盖率。以此提高算法模型的整体性能。但这也会放大数据集中存在的偏差,当模型没有来自某些子组的足够数据时,就会出现偏差。对于代表性不足的个人,这可能会导致错误或错误的预测。
麻省理工学院的研究人员旨在得出模型的整体错误率会随着选择性回归的提高而提高的结论,他们把这种情况称之为单调选择性风险。
该团队开发了两种神经网络算法,采用这种公平标准来解决问题。
第一种算法保证模型用于进行预测的特征包含有关数据集中敏感属性的所有信息,例如种族和性别,这些信息与感兴趣的目标变量相关。敏感属性是可能不用于决策的特征,通常是由于法律或组织政策。
第二种算法采用校准技术来确保模型对输入做出相同的预测,无论是否将任何敏感属性添加到该输入。
研究人员通过将这些算法应用于可用于高风险决策的真实数据集来测试这些算法。一是保险数据集,用于使用人口统计数据预测向患者收取的年度医疗费用总额;另一个是犯罪数据集,用于使用社会经济信息预测社区中的暴力犯罪数量。两个数据集都包含个人的敏感属性。
当他们在用于选择性回归的标准机器学习方法之上实施他们的算法时,他们能够通过降低每个数据集中少数子组的错误率来减少差异。此外,这是在没有显着影响整体错误率的情况下完成的。
他们希望改进选择性回归中的置信度估计,以防止模型出现置信度低但预测正确的情况。研究人员还表示,这可以减少工作量并进一步简化决策过程。