多场景融合的细粒度图像描述生成算法 - Details

初始密码提示：姓名拼音首字母【第一个汉字的首字母大写，其他首字母小写】+身份证号（或护照）后六位【包含字母的，字母大写】

手机验证码登录找回密码

author：

李欣晔 (李欣晔.) ^[1] | 张承强 (张承强.) ^[2] | 周雄图 (周雄图.) ^[3] | 郭太良 (郭太良.) ^[4] | 张永爱 (张永爱.) ^[5]

Abstract：

针对图像描述生成任务在不同场景下表现不佳的缺点,提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法。该算法通过卷积神经网络生成视觉语义单元,使用命名实体识别对图像场景进行识别和预测,并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算,最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成。结果表明,该算法有效解决了生成的描述缺少关键场景信息的问题。在MSCOCO和Flickr30k数据集上对模型进行评估,其中MSCOCO数据集的CIDEr得分达到1.210,优于同类图像描述生成模型。

Keyword：

Transformer结构卷积神经网络命名实体识别图像描述生成多场景注意力

Community：

[ 1 ] 福州大学物理与信息工程学院

Reprint 's Address：

Email：

Show more details

Related Keywords：

Source ：

计算机与现代化

Year： 2021

Issue： 09

Volume： 6

Page： 1-6

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 4

Affiliated Colleges：

Get Fulltext

Library Discovery Baidu Scholar Search CNKI

Type
Departments

All Years Choose Year From to