卷积神经网络(CNN)常用于图像分类和对象识别,并提供了一种更具扩展性的方法,利用线性代数的原理,特别是矩阵乘法,来识别图像。
卷积神经网络与其他神经网络的区别在于其在图像、语音或音频信号输入方面的卓越性能。
卷积神经网络3个主要类型层
分别是卷积层、池化层和全连接层。
1、卷积层
卷积层是CNN最重要的组成部分,因为它是进行大部分处理的地方。它需要输入数据、过滤器和特征图等。
让我们假设输入是一张彩色图片,它由一个3D像素矩阵组成。这意味着输入将具有三个维度:高度、宽度和深度,它们与图片的RGB颜色空间相匹配。在这里,我们尝试将RGB分解为多维层,并对每一层应用过滤器。
特征检测器,也称为内核或过滤器,将遍历图像的感受野,检查特征的存在。跨步器用于跨步到图像中的每个矩阵。我们尝试使用卷积跨步器来理解这些图像。
2、池化层
池化层是一种降维技术,可以减少输入参数的数量。池化过程像卷积层一样在输入中扫描过滤器。但是,与卷积层不同,此过滤器不包含任何权重。
相反,内核使用聚合函数从接受域中的值填充输出数组。池化层也称为下采样过程。并且,最大池化和平均池化是池化的两种基本形式。
3、全连接层
全连接层的名称是对它的完美描述。如前所述,对于部分连接的层,输入图像的像素值不直接连接到输出层。
但是,输出层中的每个节点都直接链接到全连接层中前一层的节点。该层根据前面层检索到的特征和应用于它们的过滤器进行分类。
虽然卷积层和池化层通常使用ReLu函数对输入进行分类,但FC层通常使用softmax激活函数来提供从0到1的概率。
卷积神经网络的过滤器、感受野、步幅和填充
1、过滤器
卷积神经网络中的滤波器通过检测图片强度值的变化来识别空间模式,例如图像中的边缘。
2、感受野
感受野是空间或空间结构的指定区域,包括为层的单元集合提供输入的单元。卷积神经网络中层的滤波器大小决定了感受野。
3、步幅
内核的步幅是它穿过输入矩阵的像素数。尽管两个或更多的步幅值并不常见,但更大的步幅会导致更少的输出。
4、填充
填充本质上增加了卷积神经网络可以处理的图像数量。每个像素在经过图片时由内核/过滤器扫描,将图像转换为较小的图像。
卷积神经网络的步骤
使用MLP创建模型,到卷积层,再激活池化层,再到全连接层,最后是卷积神经网络模型编译和训练。
卷积神经网络的优点
图像识别问题的非常高的准确性。并且无需人工监督。
卷积神经网络的局限性
卷积神经网络(CNN)在对与数据集非常相似的图像进行分类时具有出色的性能。但是,如果图像包含某种程度的倾斜或旋转,那么CNN通常难以对图像进行分类。如果CNN包含多个层,没有强大的GPU,训练过程将需要很长时间。而且为了分析和训练神经网络,需要庞大的数据集。