Mask R-CNN是一种卷积神经网络(CNN),在图像分割方面非常强大。此网络检测图像中的对象并为每个实例生成高质量的分割掩码。还有,Mask R-CNN是在基于区域的卷积神经网络Faster R-CNN之上开发的。
了解Mask R-CNN工作原理的第一步需要了解图像分割的概念。计算机视觉任务图像分割是将数字图像划分为多个像素集的过程。这种分割用于定位对象和边界。
Mask R-CNN图像分割类型
Mask R-CNN有两种主要的图像分割类型:语义分割和实例分割。
语义分割
语义分割将每个像素分类到一组固定的类别中,而不区分对象实例。换句话说,语义分割处理从像素级别将相似对象识别/分类为单个类。语义分割也称为背景分割,因为它将图像的主体与背景分开。
实例分割
实例分割识别处理图像中所有对象的正确检测,同时还精确分割每个实例。因此,它是目标检测、目标定位和目标分类的结合。
换句话说,这种类型的分割进一步明确区分了被分类为相似实例的每个对象。语义分割也称为前景分割,因为它突出了图像的主题而不是背景。
Mask R-CNN是如何工作的?
Mask R-CNN是使用Faster R-CNN构建的。Faster R-CNN为每个候选对象提供2个输出,一个类标签和一个边界框偏移量,而Mask R-CNN添加了第三个分支,用于输出对象掩码。额外的掩码输出与类和框输出不同,需要提取更精细的对象空间布局。
Mask R-CNN是Faster R-CNN的扩展,它通过添加一个分支来预测对象掩码与现有的边界框识别分支并行。
Mask R-CNN的优势
简单性:Mask R-CNN易于训练。
性能:Mask R-CNN在每项任务上都优于所有现有的单模型条目。
效率:该方法非常高效。
灵活性:Mask R-CNN很容易被应用到其他任务。例如,可以在同一框架中使用Mask R-CNN进行人体姿势估计。
Mask R-CNN的关键要素是像素到像素对齐,这是Faster R-CNN主要缺失的部分。Mask R-CNN采用相同的两阶段程序,具有相同的第一阶段(即RPN)。在第二阶段,在预测类和框偏移的同时,Mask R-CNN还为每个RoI输出一个二进制掩码。这与最近的系统形成对比,其中分类取决于掩码预测。
此外,与Faster R-CNN框架相比,Mask R-CNN更易于实施和训练。