MS COCO数据集是微软发布的大规模对象检测、分割以及字幕数据集。此数据被机器学习和计算机视觉工程师普遍用于各种计算机视觉项目。
我们知道理解视觉场景是计算机视觉的主要目标,它涉及识别对象、在2D和3D中定位对象、确定对象的属性以及表征对象之间的关系。因此,使用COCO数据集可以训练对象检测和对象分类算法。
COCO数据集的定义
COCO代表上下文中的常见对象,因为图像数据集是为了推进图像识别而创建的。COCO数据集包含高质量的计算机视觉的视觉数据集,而且COCO通常用于对算法进行基准测试,以比较实时对象检测的性能。COCO数据集的格式由高级神经网络库自动解释。
COCO数据集的特点
- 具有详细实例注释的对象分割
- 上下文识别
- 超像素东西分割
- 总共33万张图像中有20万多张图像被标记
- 1.5Mio对象实例
- 80个对象类别
- 91个东西类别,其中包括没有明确边界,如天空、街道、草地等的对象,它们提供重要的上下文信息。
- 每张图片5个标题
- 25万人,有17个不同的关键点,广泛用于姿势估计
COCO对象类列表
用于对象检测和跟踪的COCO数据集类包括以下预训练的部分个对象:
人,自行车,汽车,摩托车,飞机,公共汽车,火车,卡车,船,红绿灯,消防栓,停车标志,停车计时器,长凳,鸟,猫,狗,马,绵羊,牛,大象,熊,斑马,长颈鹿,背包 、 雨伞 、 手提包 、 领带 、 手提箱 、 飞盘 、 滑雪板 、 滑雪板 、 运动球 、 风筝 、 棒球棒 、 棒球手套,滑板,冲浪板,网球拍,瓶子,酒杯,杯子,叉子,刀,勺子
COCO关键点列表
COCO关键点包括17个不同的预训练关键点/类,以下为部分:
鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左臀、右臀、左膝盖、右膝盖、左脚踝、右脚踝
这些关键点用三个值(x,y,v)进行注释。x和y值表示坐标,v表示关键点的可见性。
结尾
COCO数据集包含大量描绘复杂日常场景中常见对象的照片,这将COCO与其他对象识别数据集区分开来。同时,COCO数据集的注释主要集中在多个单个对象实例的分割上。与CIFAR-10和CIFAR-100等其他流行数据集相比,这种更广泛的关注点使COCO可以在更多实例中使用。
COCO数据集在328k图像中有250万个标记实例,是一个非常庞大且可扩展的数据集,可用于多种用途。