• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

黄俊炀 (黄俊炀.) [1] | 陈宏辉 (陈宏辉.) [2] | 王嘉宝 (王嘉宝.) [3] | 陈平平 (陈平平.) [4] (Scholars:陈平平)

Abstract:

场景文本识别(Scene Text Recognition,STR)使计算机能够获取自然场景图像中的文本信息.在STR的研究中识别准确性始终是关注重点.对于计算资源受限的边缘设备,模型的参数量和计算效率也同样重要.针对该问题,提出了基于多头注意力融合的自然场景文本识别(Scene Text Recognition Based on Multi-Head Attention Fusion,MAF)算法.通过利用多头注意力(Multi-Head Attention,MHA)机制设计了视觉编码器,实现对规则和不规则场景文本图像的视觉特征深度提取.为了增强模型对字符间间距变化和语义相似性的感知能力,提出了增强位置编码以及结合输入上下文和置换模型的语义编码器.通过MHA将视觉和语义特征信息融合,提高在复杂环境背景下的文本字符识别准确率.实验结果表明,MAF的参数量仅为7.6×106,FLOPS为1.0×109,在真实STR数据集上的平均识别准确率达到95.6%,有效平衡了识别任务的准确性和计算效率,具有一定的应用潜力.

Keyword:

场景文本识别 注意力机制 特征信息关联 计算机视觉

Community:

  • [ 1 ] [黄俊炀]福州大学
  • [ 2 ] [陈宏辉]福州大学
  • [ 3 ] [王嘉宝]福州大学
  • [ 4 ] [陈平平]福州大学

Reprint 's Address:

Email:

Show more details

Related Keywords:

Source :

无线电工程

ISSN: 1003-3106

Year: 2024

Issue: 11

Volume: 54

Page: 2576-2584

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 17

Online/Total:118/9851395
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1