Abstract:
场景文本识别(Scene Text Recognition,STR)使计算机能够获取自然场景图像中的文本信息.在STR的研究中识别准确性始终是关注重点.对于计算资源受限的边缘设备,模型的参数量和计算效率也同样重要.针对该问题,提出了基于多头注意力融合的自然场景文本识别(Scene Text Recognition Based on Multi-Head Attention Fusion,MAF)算法.通过利用多头注意力(Multi-Head Attention,MHA)机制设计了视觉编码器,实现对规则和不规则场景文本图像的视觉特征深度提取.为了增强模型对字符间间距变化和语义相似性的感知能力,提出了增强位置编码以及结合输入上下文和置换模型的语义编码器.通过MHA将视觉和语义特征信息融合,提高在复杂环境背景下的文本字符识别准确率.实验结果表明,MAF的参数量仅为7.6×106,FLOPS为1.0×109,在真实STR数据集上的平均识别准确率达到95.6%,有效平衡了识别任务的准确性和计算效率,具有一定的应用潜力.
Keyword:
Reprint 's Address:
Email:
Source :
无线电工程
ISSN: 1003-3106
Year: 2024
Issue: 11
Volume: 54
Page: 2576-2584
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 17
Affiliated Colleges: