计算机视觉是使用计算机理解数字图像的过程。计算机视觉的核心任务是图像识别,它有助于识别和分类图像中的元素。对于机器来说,图像识别是一项高度复杂的任务,需要强大的处理能力,它涉及对上下文知识和并行处理的高层次理解。
本文通过对图像识别四个方面的介绍,带大家了解图像识别技术。
- 图像识别的定义
- 图像识别技术发展史
- 图像识别算法和技术
- 人工智能在图像识别中的实际应用
什么是图像识别
如今,用户通过APP、社交网络和网站以图像的形式共享大量数据。并随着智能手机和高分辨率相机的发展,生成的数字图像和视频的数量每年都在猛增。而对于企业来说,可以根据这些大量数字数据,提供更好、更具创新性的服务。
如何使用这些数据呢?这就需要图像识别技术。图像识别允许机器识别图像中的对象,比如人、物体和其他变量。它是计算机视觉技术的一个子类别,处理识别图像数据中的模式和规律,然后通过解释图像像素将它们分类。
数字图像由像素组成,每个像素都具有有限的、离散的数字表示,用于表示其强度或灰度级。基于人工智能的算法使机器能够理解这些像素的模式并识别图像。
图像识别技术的演变
视觉是最神奇、最复杂的感官。人类进化了将近5亿年才达到这种完美水平。而近年来,我们在将视觉能力扩展到计算机或机器方面取得了巨大进步。
图像识别技术的第一步发生在1950年代后期。一篇有影响力的论文被引用为图像识别基础知识的起点,尽管它与发展的算法方面没有直接关系。这篇论文描述了视觉神经元的基本反应特性,因为图像识别总是从处理简单的结构开始——比如容易区分的物体边缘。这一原则仍然是后来用于基于计算机的图像识别的深度学习技术的种子。
另一个基准也在同一时间出现——第一台数码照片扫描仪的发明。
由Russel Kirsch领导的研究小组开发了一种机器,可以将图像转换为数字网格,机器可以理解称为像素的二进制值。最早扫描的图像是以30976像素(176*176)拍摄的颗粒状小照片。
1963年,Lawrence Roberts发表题为“三维立体的机器感知”的博士论文,被认定是图像识别或计算机视觉应用的真正奠基人。他描述了通过将2D照片转换为线条图来从2D照片中提取有关对象的3D信息的过程。特征提取和映射到三维空间为更好的图像上下文表示铺平了道路。事实证明,Lawrence强调的过程是后来研究计算机控制的3D系统和图像识别的起点。
2010年之后,图像识别和目标检测的发展才真正起飞。
2012年设计了新的物体识别算法,人脸识别准确率达到85%,朝着正确的方向迈出了一大步。到2015年,卷积神经网络(CNN)等基于特征的深度神经网络得到发展,图像识别工具的准确率水平超过95%。
如今,AlexNet和ImageNet等最先进的深度学习模型的开发释放了图像识别和计算机视觉行业的巨大潜力。
图像识别的算法和技术
在深入了解图像识别的工作原理之前,让我们先看看图像识别技术的四个主要目的:检测、分类、标记和分割。
分类:人工神经网络识别图像中的对象并将它们分配给预定义的组。
检测:对象的分类和定位过程称为对象检测。一旦找到对象的位置,就会在其周围放置一个具有相应精度的边界框。根据对象的复杂程度,采用边界框标注、语义分割、关键点标注等技术进行检测。
标记:标记类似于分类,旨在提高准确性。它试图识别图像中的多个对象。因此,一张图片可以有一个或多个标签。
分割:试图将图像中的对象定位到最近像素的检测任务。算法不是在对象周围对齐框,而是识别属于每个类的所有像素。
现在,让我们继续看看图像识别在实践中是如何工作的:
1.数据收集
为了实现图像识别,机器视觉人工智能模型被输入预先标记的数据,以教它们识别以前从未见过的图像。
2.图像数据的预处理
数据集准备就绪后,需要做几件事才能最大限度地提高模型训练的效率。
数据标注:图像中用作感兴趣区域的对象必须标记(或注释)才能被计算机视觉系统检测到。
图像表示:数字图像具有说明像素强度的矩阵表示。提供给图像识别模型的信息是图像像素的位置和强度。
3.模型架构和训练过程
由于其独特的工作原理,卷积神经网络(CNN)在深度学习图像识别方面取得了最佳效果。
完整的像素矩阵不会直接馈送到CNN,因为模型很难从高维稀疏矩阵中提取特征。相反,完整的图像使用过滤器或内核被分成特征图。
每个连续层中的卷积层可以识别更复杂、更详细的特征——图像所描绘内容的视觉表示。这种越来越复杂和抽象的层次结构被称为特征层次结构。
相应的较小部分被归一化,并对其应用激活函数。整流线性单元(ReLu)被视为最适合图像识别任务。减小矩阵大小以帮助机器学习模型通过使用池化层更好地提取特征。根据图像分类问题中的标签,输出层预测输入图像属于哪个类别。
4.图像识别的算法
在训练深度学习模型所需的并行处理和广泛的计算能力发展之前,传统的机器学习模型已经为图像处理设定了标准。
支持向量机算法:SVM通过制作图像的直方图来描述特征。他们通过在图像周围移动来使用滑动检测窗口技术。然后,该算法获取测试图片并将经过训练的直方图值与图片各个部分的值进行比较,以检查是否接近匹配。
Bof检索算法:该算法在样本图像与参考图像之间进行逐像素匹配。然后,经过训练的模型会尝试将图像集中的特征与目标图像的各个部分进行像素匹配,以查看是否找到匹配项。
以及在计算机视觉中广泛使用的其他算法。如回归算法、正则化算法、决策树算法、贝叶斯算法、聚类算法等。
5.图像识别深度学习模型
YOLO:该对象检测算法使用置信度分数,并通过每个网格框中的边界框对多个对象进行注释。YOLO,顾名思义,使用固定的网格大小只处理一次帧,然后判断网格框是否包含图像。
单次检测器(SSD):单次检测器将图像划分为默认数量的边界框,以不同宽高比的网格形式。从应用于图像的神经网络的隐藏层获得的特征图以不同的纵横比组合以自然地处理不同大小的对象。这些类型的对象检测算法灵活且准确,主要用于训练集包含少量图像实例的人脸识别场景。
图像识别的应用
既然知道了图像识别是如何工作的,那么让我们看看图像识别技术在各个行业的一些实际应用。
损害评估
图像识别可用于通过分析图像和查找缺陷来自动执行损坏评估过程,显着减少损坏对象的费用评估时间。
包装检验
手动质量控制往往成本高昂且效率低下。为了解决这个问题,将此技术作为供应链的一部分,使用基于计算机视觉的尖端人工智能技术来检查破损产品或质量问题。
质量保证
图像识别技术非常适合大规模检测偏差或异常。可以训练机器检测产品中的瑕疵,以确保产品达到预期的质量标准。
医学图像分析
图像识别在医学领域有多种应用,比如医生通过医学图像来检测骨折、肿瘤等。
图片搜索
视觉搜索使用从深度神经网络学习的特征来开发高效且可扩展的图像检索方法。目标是执行基于内容的图像检索。
广告营销
社交媒体网络的发展,让图像识别技术用于推广产品的目标受众。
自动驾驶汽车
图像识别技术用于自动驾驶汽车。通过分析实时视频馈送,此类自动驾驶汽车可以通过分析道路上的活动和交通信号来导航。
面部识别
面部识别广泛用于智能手机、企业安全方面,可以识别未经授权访问的个人。
视频监控
配备高分辨率摄像头即可以实现在特定区域巡逻,并使用图像识别技术进行物体检测。