• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

李欣晔 (李欣晔.) [1] | 张承强 (张承强.) [2] | 周雄图 (周雄图.) [3] (Scholars:周雄图) | 郭太良 (郭太良.) [4] (Scholars:郭太良) | 张永爱 (张永爱.) [5] (Scholars:张永爱)

Abstract:

针对图像描述生成任务在不同场景下表现不佳的缺点,提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法.该算法通过卷积神经网络生成视觉语义单元,使用命名实体识别对图像场景进行识别和预测,并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算,最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成.结果表明,该算法有效解决了生成的描述缺少关键场景信息的问题.在MSCOCO和Flickr30k数据集上对模型进行评估,其中MSCOCO数据集的CIDEr得分达到1.210,优于同类图像描述生成模型.

Keyword:

Transformer结构 卷积神经网络 命名实体识别 图像描述生成 多场景注意力

Community:

  • [ 1 ] [李欣晔]福州大学
  • [ 2 ] [张承强]福州大学
  • [ 3 ] [周雄图]福州大学
  • [ 4 ] [郭太良]福州大学
  • [ 5 ] [张永爱]福州大学

Reprint 's Address:

Email:

Show more details

Related Keywords:

Source :

计算机与现代化

ISSN: 1006-2475

CN: 36-1137/TP

Year: 2021

Issue: 9

Page: 1-6

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 1

Online/Total:74/10016334
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1