行人重识别(Re-ID)通过不相交的相机库中搜索被查询的人来解决视觉检索问题。行人重识别旨在确定目标是否在不同的相机拍摄的不同时间出现在另一个地方,又或是同一相机的不同时间段。此查询可以用图像、视频序列甚至文本描述来表示。重识别领域是一个被广泛研究的研究领域。随着人们对公共安全的迫切需求和越来越多的监控摄像头,对人进行重新识别也是一个具有重要现实意义的重要目标。
行人重识别的挑战
由于各种视点、低图像分辨率、照明变化、不受约束的姿势、遮挡、异构模态、复杂的相机环境、背景混乱、不可靠的边界框生成等,重新识别具有挑战性。所有这些因素导致很多不确定性。此外,对于实际模型部署,动态更新的摄像头网络、高效检索的大型图库、群体不确定性、看不见的测试场景、增量模型更新和换衣服也大大增加了难度。这些挑战是重新识别仍然被认为是实际应用中未解决的问题的主要原因。
深度学习的重新识别如何工作
早期的方法主要侧重于具有身体结构或距离度量学习的手工特征构建。然而,随着深度学习的进步,行人重识别在流行的基准测试中取得了可喜的表现。然而,面向研究的场景与实际的视觉重识别应用之间仍然存在较大差距。
通常,构建行人重识别系统需要五个主要步骤:
1.视频数据收集
主要要求是来自监控摄像头的原始视频数据的可用性。此类摄像机通常放置在不同环境下的不同位置。通常,原始视觉数据包含大量复杂且嘈杂的背景杂波。
2.边界框生成
使用人物检测和跟踪算法检测视频数据中的人物。包含人物图像的边界框是从视频数据中提取的。
3.数据标注
交叉相机标签被注释。由于较大的跨相机变化,训练数据注释通常对于判别式重新识别模型学习至关重要。对于大域转换,训练数据通常需要在每个新场景中进行注释。
4.模型训练
在训练阶段,使用先前标注的人物图像或视频训练具有辨别力和鲁棒性的Re-ID模型。这是重识别系统开发的核心,被广泛研究。已经开发了广泛的模型来应对各种挑战,主要集中在特征表示学习、距离度量学习或它们的组合上。
5.行人检索
测试阶段进行行人检索。给定一个人和一个画廊集的查询,Re-ID模型提取在前一阶段学习的特征表示。通过对计算出的query-to-gallery相似度(ID匹配的概率)进行排序来获得排名列表。