Abstract:
由于视觉Transformer结构模型参数量大、浮点计算次数高,使得其难以部署到终端设备上.因为注意力矩阵存在低秩瓶颈,所以模型压缩算法和注意力机制加速算法不能很好地平衡模型参数量、模型推理速度和模型性能之间的关系.为了解决上述问题,本文设计一种轻量级的ViT-SST模型用于图像分类任务.首先,通过将传统全连接层转换为可分离结构,大幅度降低模型参数量且提高了模型推理速度,保证了注意力矩阵不会因出现低秩而破坏模型表达能力;其次,提出一种基于SVD分解的克罗内克积近似分解法,可以将公开的ViT-Base模型预训练参数转换至ViT-Base-SST模型,略微缓解了ViT模型的过拟合现象并提高了模型精度.在常见公开图片数据集CIFAR系列和Caltech系列上的实验验证了本文方法优于对比方法.
Keyword:
Reprint 's Address:
Email:
Version:
Source :
计算机与现代化
ISSN: 1006-2475
Year: 2022
Issue: 10
Page: 75-81
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 2
Affiliated Colleges: