近日,Noisylabels榜单发布了最新排名,引起了广泛的关注。在这次榜单中,网易伏羲以其两项研究成果:《ProMix:Combating Label Noise via Maximizing Clean Sample Utility》和《Rethinking Noisy Label Learning in Real-world Annotation Scenarios from the Noise-type Perspective》高位入选。这两项研究涉及到数据众包、标签噪声以及数据质量等领域,为标签噪声建模提供了理论基础,并为伏羲有灵标注中的标签去噪应用提供了方法,从而能够支持伏羲有灵标注输出准确率更高的样本标注结果。
Noisylabels是首个真实世界标签噪声基准榜单,其体现了算法对于标签噪声的建模与识别能力,是标签去噪应用的重要理论依据。本次网易伏羲与浙江大学王皓波研究员合作,共有两项工作进入榜单中。其中ProMix在6个子榜中均取得第一,Proto-semi在3个子榜单中达到第四,另外三个子榜单分别获得第五、第六、第七名的成绩。同期入选榜单的方案单位还包括腾讯优图实验室、北大微软亚研院卡耐基梅隆大学等联合团队、谷歌纽约大学密歇根大学等联合团队、美团等。本次网易伏羲入选的两项目,在大多数子榜上的平均水平高于其他入选项目两个方法。
人工智能模型训练需要干净的样本数据集,然而现实生产环境的数据集往往大量依赖人工标注,在标注过程中,由于人的标注行为存在误差,容易产生有噪声数据集,因此会影响后续的模型训练,并最终限制了人工智能的应用落地。对此,标签噪声学习领域旨在理解并建模样本标签中噪声的产生机制,从而更好的训练模型,甚至在原有数据集中修正错误标签。为了标定当前标签噪声学习领域各个方法的有效性,学术界依托CIFAR数据集,推出了一个现实环境人类噪声的标签噪声榜单数据集。
网易伏羲入选项目的具体信息如下:
ProMix:Combating Label Noise via Maximizing Clean Sample Utility
该项目提出了一种新颖的混合样本生成方法ProMix,通过最大化干净样本的效用来抵抗标签噪声。ProMix利用了一种基于原型网络的自适应混合策略,可以根据样本的噪声程度动态调整混合比例,从而有效地利用干净样本的信息,同时减少噪声样本的影响。ProMix在Noisylabels榜单上的所有子榜中均取得了第一名的成绩,超越了其他所有的对比方法。
Rethinking Noisy Label Learning in Real-world Annotation Scenarios from the Noise-type Perspective
该项目从噪声类型的角度重新思考了真实世界标注场景下的标签噪声学习问题,提出了一种新颖的标签噪声建模方法Proto-semi。Proto-semi基于原型网络和半监督学习的思想,可以自适应地识别和纠正不同类型的标签噪声,从而提高模型的泛化能力。该成果在Noisylabels榜单上的三个子榜中达到了第四名的成绩,在另外三个子榜中也取得了不错的排名。
本次网易伏羲的两篇论文在该榜单中都获得了优异的排名,充分体现了网易伏羲在人类标注场景下标签噪声的理论认知已达到国际前沿水平,为后续的标签噪声修正和数据集质量维护等应用奠定了重要的理论基础。网易伏羲也将继续致力于标签噪声学习领域的研究,继续深入探索标签噪声学习领域的前沿问题,为人工智能模型训练提供更高质量的数据集,为人工智能的应用落地贡献力量。