麻省理工学院:一种更加简单的方法提高图像分类模型的准确性

发布:2022-11-25 11:22:34
阅读:6561
作者:ScienceDaily
分享:复制链接

麻省理工学院的研究人员发现,与使用成本更高、更耗时且可扩展性更差的其他预训练方法相比,使用大量简单的、未经策划的合成图像生成程序来预训练用于图像分类的计算机视觉模型可产生更高的准确性。

众所周知,在机器学习模型完成一项任务之前,必须对模型进行训练。如果涉及到超大型数据集,海量的数据集中的数百万计的示例图像需要进行处理。然而,使用真实图像数据可能会引起权法、隐私等问题。为了避免这些问题,研究人员可以使用图像生成程序来创建用于模型训练的合成数据。但是这些技术又需要专业知识来手动设计出可以创建有效训练数据的图像生成程序。

对此,麻省理工学院、MIT-IBM的相关研究人员采用了不同的方法。他们没有为特定的训练任务设计定制的图像生成程序,而是从互联网上收集了21000个公开程序的数据集。基于这些数据集他们使用大量基本图像生成程序来训练计算机视觉模型。

这些程序生成显示简单颜色和纹理的不同图像。研究人员没有重新更改程序,每个程序仅包含几行代码。

他们使用这个大型程序数据集训练的模型比其他综合训练模型更准确地对图像进行分类。而且,虽然他们的模型表现不及那些用真实数据训练的模型,但研究人员表明,增加数据集中图像程序的数量也会提高模型性能,揭示了获得更高准确性的途径。

重新思考预训练

机器学习模型通常是经过预训练的,这意味着它们首先在一个数据集上进行训练,以此构建可用于处理不同任务的参数。用于分类X射线的模型可能会使用大量合成生成的图像数据集进行预训练,然后再使用更小的真实X射线数据集对其实际任务进行训练。

就如上面所说,研究人员使用一些图像生成程序来创建用于模型预训练的合成数据,但需要仔细设计这些程序,以便合成图像与真实图像的某些属性相匹配。这一点使得该技术难以扩大规模。

不过,因为所有的程序都是用一种简单的编程语言编写的,只包含几段代码,因此它们可以快速生成图像。并且可以同时生成图像和训练模型,这也让整个训练过程得到简化。

“这些程序是由世界各地的开发人员设计的,目的是生成具有我们感兴趣的某些属性的图像。它们生成的图像看起来有点像抽象艺术,”研究人员Baradad解释道。

最后,研究人员使用庞大的图像生成程序数据集为监督和非监督图像分类任务预训练计算机视觉模型。在监督学习中,图像数据被标记,而在无监督学习中,模型学习对没有标签的图像进行分类。

提高模型准确性

当研究人员将他们的预训练模型与使用合成数据进行预训练的最先进的计算机视觉模型进行比较时,其结果是他们的模型更加准确。但与使用真实数据上训练的模型相比,合成数据的准确性还是不足,不过此项技术将在真实数据与合成数据之间的性能差距缩小了38%。

更重要的是,对于收集的程序数量,性能呈对数增长。也就说如果收集更多程序,该模型的性能会更好。基于此,研究人员还尝试了新的方法。

研究人员将每个单独的图像生成程序进行预训练,他们发现,当程序生成更多样化的图像集时,模型的性能会更好。其中,如果是充满整个画布的彩色图像最能提高模型性能。

尽管现在已经证明了这种预训练方法的成功,研究人员还想继续探索提高图像分类性能的方法,并且希望将这项技术扩展到其他类型的数据,例如包含文本和图像的多模态数据。

扫码进群
微信群
免费体验AI服务