图像识别算法需要从样本的数据集中“学习”。传统的计算机视觉图像识别方法是一系列图像过滤、分割、特征提取和基于规则的分类。然而,传统的计算机视觉方法需要高水平的专业知识、大量的工程时间,并且包含许多需要手动确定的参数,而对其他任务的可移植性非常有限。
最流行的机器学习方法是深度学习,其中在模型中使用神经网络的多个隐藏层。
深度学习引入结合强大的人工智能硬件和GPU,使图像识别领域取得了重大突破。通过深度学习,图像分类和人脸识别算法实现了人类水平以上的性能和实时目标检测。
图像识别算法的发展
2017年,Mask RCNN算法是MS COCO基准测试中最快的实时目标检测器,每帧推理时间为330毫秒。相比之下,2021年发布的YOLOR算法在同一基准上实现了12ms的推理时间,甚至超过了流行的YOLOv4 和YOLOv3深度学习算法。
与20年前早期图像处理中的传统计算机视觉方法相比,深度学习只需要机器学习工具的工程知识,而不需要特定机器视觉领域的专业知识来创建手工特征。此外,深度学习的特殊实现只需要几十个学习样本。
深度学习需要手动标注数据来标注好样本和坏样本,这个过程称为图像标注。从人类标记的数据中学习的过程称为监督学习。创建此类标记数据以训练AI模型的过程需要耗时的人工工作,例如,注释自动驾驶中的标准交通情况。
图像识别的过程
图像识别的工作原理有3个步骤:
步骤一,带有训练数据的数据集
图像识别模型需要训练数据(视频、图片、照片等)。神经网络需要从获取的数据集中训练图像来创建对某些类别外观的感知。
例如,检测不同姿势的图像识别模型,需要了解不同人体姿势的实例。
步骤二,用于图像识别的神经网络训练
图像识别算法的训练使得卷积神经网络图像识别能够识别特定的类别。
步骤三,AI模型测试
训练后的模型需要使用不属于训练数据集的图像进行测试。这用于确定模型的可用性、性能和准确性。因此,大约80-90%的完整图像数据集用于模型训练,而其余数据则保留用于模型测试。
模型性能是根据一组参数测量的,这些参数包含测试图像的准确度和识别率等。