一种提高人工智能公平性和准确性的技术

发布:2022-09-26 15:08:27
阅读:8061
作者:麻省理工学院
分享:复制链接

对于使用机器学习模型帮助他们做出决策的工作人员来说,知道何时信任模型的预测并不总是一件容易的事,尤其是这些模型通常非常复杂,以至于它们的内部运作规律仍然是个谜。

有时会使用一种称为选择性回归的技术,在该技术中,算法模型会估计每个预测的置信水平,并在其置信度过低时拒绝预测。然后人类可以检查这些案例,收集更多信息,并手动对每个案例做出决定。

图片

虽然选择性回归已被证明可以提高算法模型的整体性能,但麻省理工学院和MIT-IBM沃森人工智能实验室的研究人员发现,该技术可能对数据代表性不足的人群产生相反的效果。随着算法的可信度随着选择性回归的增加而增加,其做出正确预测的机会也会增加,但这种情况并不绝对。

例如,贷款审批的算法模型错误率很低,但它实际上可能会对某一类申请人群做出错误的评估。发生这种情况的原因是模型的置信度度量是使用代表人数过多的数据组进行训练的,因此对于代表人数不足的数据组可能不准确。

麻省理工学院的研究人员就开发了两种可以解决这个问题的算法。算法结果表明,这两种算法减少了影响边缘化子组的性能差异。

回归是一种估计因变量和自变量之间关系的技术。在机器学习中,回归分析通常用于预测任务,例如根据房屋的特征(卧室数量、平方英尺等)预测房屋的价格。通过选择性回归,算法模型可以做出两种选择,执行每一个数据,它可以做出预测或放弃预测。

当算法放弃预测时,会减少它进行预测的样本比例,这被称为覆盖率。以此提高算法模型的整体性能。但这也会放大数据集中存在的偏差,当模型没有来自某些子组的足够数据时,就会出现偏差。对于代表性不足的个人,这可能会导致错误或错误的预测。

麻省理工学院的研究人员旨在得出模型的整体错误率会随着选择性回归的提高而提高的结论,他们把这种情况称之为单调选择性风险。

图片

该团队开发了两种神经网络算法,采用这种公平标准来解决问题。

第一种算法保证模型用于进行预测的特征包含有关数据集中敏感属性的所有信息,例如种族和性别,这些信息与感兴趣的目标变量相关。敏感属性是可能不用于决策的特征,通常是由于法律或组织政策。

第二种算法采用校准技术来确保模型对输入做出相同的预测,无论是否将任何敏感属性添加到该输入。

研究人员通过将这些算法应用于可用于高风险决策的真实数据集来测试这些算法。一是保险数据集,用于使用人口统计数据预测向患者收取的年度医疗费用总额;另一个是犯罪数据集,用于使用社会经济信息预测社区中的暴力犯罪数量。两个数据集都包含个人的敏感属性。

当他们在用于选择性回归的标准机器学习方法之上实施他们的算法时,他们能够通过降低每个数据集中少数子组的错误率来减少差异。此外,这是在没有显着影响整体错误率的情况下完成的。

他们希望改进选择性回归中的置信度估计,以防止模型出现置信度低但预测正确的情况。研究人员还表示,这可以减少工作量并进一步简化决策过程。

最新文章
大模型作为人类与智能体交流门户的战略价值——新圈地运动与智能产业的未来战略
2025-12-24 18:14:28
大模型作为人类与智能体交流门户的战略价值——人与智能体的界面式交流
2025-12-24 18:12:32
大模型作为人类与智能体交流门户的战略价值——从语言到大模型:认识论根基的嬗变
2025-12-24 18:11:28
从开路先锋到智造标杆,网易灵动携手大型央企开始“无人化作业”新阶段
2025-12-24 16:30:32
把AI玩出花!网易伏羲分享:3D AIGC的8年实践、如何让游戏更好玩?
2025-12-24 14:30:20
热门文章
1CCF(中国计算机学会)-网易雷火联合基金评审结果公布!
2​网易伏羲:让生成式AI与中国用户心有灵犀
3在2022世界人工智能大会现场体验蹦迪?网易瑶台创新元宇宙多元玩法!
4强强联合 携手共赢│网易&徐工开启战略合作新纪元
5中国国际矿业大会圆满收官,网易伏羲工程机器人助力矿业绿色、智能发展!
6网易伏羲荣膺双赛道三连冠!再创CVPR2023人脸表情竞赛四项佳绩
7世界互联网大会发布2023互联网创新发展十大案例,网易无人装载机器人入选
8人机协作智能体如何助力人形机器人产业发展?网易伏羲受邀分享前沿观点 | 活动预告
9又一无人装载机项目落地!网易灵动助力世界前5的预拌混凝土龙头企业智能化升级
10“浙里烟火”烟花大会圆满落幕,在元宇宙中沉浸体验亚运氛围
扫码进群
微信群
了解更多资讯