Indexed by:
Abstract:
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network, MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能.
Keyword:
Reprint 's Address:
Email:
Version:
Source :
小型微型计算机系统
ISSN: 1000-1220
CN: 21-1106/TP
Year: 2023
Issue: 04
Volume: 44
Page: 699-705
ESI Discipline: ENGINEERING;ENVIRONMENT/ECOLOGY;PSYCHIATRY/PSYCHOLOGY;CLINICAL MEDICINE;MATERIALS SCIENCE;
ESI HC Threshold:25
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 9
Affiliated Colleges: