视觉注意与语义感知联合推理实现场景文本识别

root 提交于 周五, 06/17/2022 - 10:21
场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。

相关内容

发布日期 01/21/2024 - 12:12
发布日期 05/12/2024 - 09:43
发布日期 02/24/2024 - 15:39
发布日期 07/04/2024 - 17:54
发布日期 08/04/2020 - 01:35
发布日期 10/31/2021 - 01:12
发布日期 06/17/2022 - 10:21
发布日期 06/11/2024 - 17:46