多场景融合的细粒度图像描述生成算法 - Details

author：

李欣晔 (李欣晔.) ^[1] | 张承强 (张承强.) ^[2] | 周雄图 (周雄图.) ^[3] (Scholars：周雄图) | 郭太良 (郭太良.) ^[4] (Scholars：郭太良) | 张永爱 (张永爱.) ^[5] (Scholars：张永爱)

Abstract：

针对图像描述生成任务在不同场景下表现不佳的缺点,提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法.该算法通过卷积神经网络生成视觉语义单元,使用命名实体识别对图像场景进行识别和预测,并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算,最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成.结果表明,该算法有效解决了生成的描述缺少关键场景信息的问题.在MSCOCO和Flickr30k数据集上对模型进行评估,其中MSCOCO数据集的CIDEr得分达到1.210,优于同类图像描述生成模型.

Keyword：

Transformer结构卷积神经网络命名实体识别图像描述生成多场景注意力

Community：

[ 1 ] [李欣晔]福州大学
[ 2 ] [张承强]福州大学
[ 3 ] [周雄图]福州大学
[ 4 ] [郭太良]福州大学
[ 5 ] [张永爱]福州大学

Reprint 's Address：

Email：

Show more details

Version：

多场景融合的细粒度图像描述生成算法
2021，计算机与现代化
多场景融合的细粒度图像描述生成算法
2021，计算机与现代化

Related Keywords：

Source ：

计算机与现代化

ISSN： 1006-2475

CN： 36-1137/TP

Year： 2021

Issue： 9

Page： 1-6

Cited Count：

WoS CC Cited Count： 0

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 0

Affiliated Colleges：

物理与信息工程学院、微电子学院本学院/部未明确归属的数据

Get Fulltext

DOI Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to