论文介绍
文本检测和识别是现代OCR系统的重要组成部分。大多数OCR方法都试图在检测阶段获得精确的文本边界框,这被用作文本识别阶段的输入。我们观察到,当使用紧密的文本边界框作为输入时,由于边界框和文本识别的深度表示之间的不一致,文本识别器经常无法实现最佳性能。
在本文中,我们提出了Box Adjuster,这是一种基于强化学习的方法,用于调整每个文本边界框的形状,使其与文本识别模型更兼容。此外,当处理跨域问题(如合成到真实)时,所提出的方法显著减少了源域和目标域之间域分布的不匹配。实验表明,当使用调整后的边界框作为训练的基本事实时,端到端文本识别系统的性能可以得到改善。具体而言,在用于场景文本理解的几个基准数据集上,所提出的方法在端到端文本识别任务上的平均F-Score为2.0%,在域自适应任务上的F-Score平均为4.6%,优于最先进的文本识别器。
论文地址
https://arxiv.org/abs/2207.11934