双域感知下多方显式信息协同的场景端到端文本识别 - Details

author：

陈平平 (陈平平.) ^[1] (Scholars：陈平平) | 林虎 (林虎.) ^[2] | 陈宏辉 (陈宏辉.) ^[3] | 谢肇鹏 (谢肇鹏.) ^[4]

Abstract：

在复杂自然场景的端到端文本识别中，由于文本和背景难以区分，文本检测的位置信息和识别的语义信息不匹配，无法有效利用检测和识别之间的相关性.　针对该问题，本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法（Multi-party　Synergetic　explicit　Information　with　Dual-domain　Awareness　text　spotting，MSIDA），通过强化文本区域特征和边缘纹理，利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.　首先，设计融合文本空间和方向信息的双域感知模块（Dual-Domain　Awareness，DDA），增强文本实例的视觉特征信息；其次，提出多方显式信息协同模块（Multi-party　Explicit　Information　Synergy，MEIS）提取编码特征中的显式信息，通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例；最后，协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果　.　相比最新的　DeepSolo（Decoder　with　explicit　points　Solo，DeepSolo）方法，在　Total-Text、ICDAR　2015　和　CTW1500　数据集上，MSIDA　模型的准确率分别提升　0.8%、0.8%　和　0.4%.　代码和数据集在　https：//github.　com/msida2024/MSIDA.　git可以获取.

Keyword：

场景文本图像文本检测特征信息关联端到端文本识别计算机视觉

Reprint 's Address：

Email：

Show more details

Related Keywords：

Source ：

电子学报

ISSN： 0372-2112

Year： 2025

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 0

Affiliated Colleges：

物理与信息工程学院、微电子学院本学院/部未明确归属的数据

Get Fulltext

Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to