图像分割技术可以分为三类,分别是语义分割、实例分割和全景分割,具体取决于它们传达的信息量和类型。本文就来详解介绍语义分割的概念和应用。
什么是语义分割
本质上,语义分割的任务可以被称为对某一类图像进行分类,通过分割掩码与其余图像类分开。它也可以被认为是像素级别的图像分类。语义分割通常需要提取特征和表示,以此得到输入图像的相关性,从本质上去除噪声。
语义分割遵循三个步骤:
分类:对图像中的某个对象进行分类。
定位:找到对象并在其周围绘制边界框。
分割:通过创建分割掩码对局部图像中的像素进行分组。
基于深度学习的语义分割技术
1.全卷积网络(FCN)
卷积网络CNN由卷积层、池化层和非线性激活函数组成。在大多数情况下,CNN在末尾有一个全连接层,以便进行类标签预测。但当涉及语义分割时,通常不需要在最后使用全连接层,因为目标不是预测图像的类标签。在语义分割中,我们的目标是在使用特征将图像分成多个部分之前提取特征。
然而,卷积网络的问题在于由于最大池化层,图像在通过网络时尺寸会减小。为了有效地将图像分成多个部分,我们需要使用插值技术对其进行上采样,这是使用反卷积层实现的。
在一般的AI术语中,用于提取特征的卷积网络称为编码器。编码器还对图像进行下采样,而用于上采样的卷积网络称为解码器。
解码器产生的输出是粗糙的,因为信息在最后的卷积层丢失,即1X1卷积网络。这使得网络很难利用这一点信息进行上采样。
为了解决这个上采样问题,提出了两种架构FCN-16和FCN-8。
在FCN-16中,来自先前池化层的信息与最终特征图一起用于生成分割图。FCN-8试图通过包含来自前一个池化层的信息来使其变得更好。
2.U-net
U-net是对全卷积网络的改进。U-net具有类似的编码器和解码器设计,这些编码器块将它们提取的特征发送到相应的解码器块,形成一个U-net设计。
FCN通过下采样提取特征,而U-net使用反卷积层对提取的特征进行上采样。两者之间的唯一区别是FCN使用最终提取的特征进行上采样,而U-net 使用称为快捷连接的东西来执行此操作。
U-Net中的快捷连接旨在解决信息丢失问题。
当图像通过卷积网络时,图像尺寸会减小。这是因为它同时最大池层,这意味着信息在这个过程中丢失了。这种架构通过将高级特征与低级特征连接起来,使网络能够捕获更精细的信息并保留更多信息。
这种连接来自不同块的信息的过程使U-net能够产生更精细和更准确的结果。
3.PSPNet
旨在获得场景的完整理解。场景解析很困难,为给定图像中的所有对象创建语义分割。由于两个不同对象之间的空间相似性,部分信息会丢失。如果网络可以利用场景的全局上下文信息,则它可以捕获空间相似性。PSPNet通过使用金字塔池模块来利用场景的全局上下文信息。
4.ParseNet
众所周知,数据或图像的上下文表示对于提高性能分割任务非常有用。因为FCN缺乏上下文表示,所以无法准确地对图像进行分类。为了获取全局上下文信息或向量,使用了在输入图像上进行池化的特征图,即全局平均池化。一旦获得,全局上下文向量就会被附加到网络后续层的每个特征中。
语音分割的实际应用
1.自动驾驶汽车
自动驾驶汽车需要图像捕捉传感器,使它们能够可视化环境、做出决策并相应地导航。语义分割允许有效区分各种对象。
2.医学影像诊断
语义分割也在医学图像诊断中找到了用武之地。CT扫描和大多数医学图像非常复杂,因此很难识别异常。语义分割可以作为一种诊断工具来分析这些图像,以便医生和放射科医生可以为患者的治疗做出重要的决定。
3.场景理解
场景理解应用程序需要能够对场景中各种对象的外观进行建模,例如建筑物、树木、道路、广告牌、行人等。该模型必须学习和理解不同对象之间的空间关系。
4.航拍图像处理
航拍图像处理类似于场景理解,但它涉及景观鸟瞰图的语义分割。这种技术在洪水等危机时刻非常有用,无人机可以分散到不同的区域进行调查,以找到需要救援的人和动物。另一个可以使用航拍图像处理的领域是货物的空运。