基于可分离结构变换的轻量级Vision Transformer - Details

author：

黄延辉 (黄延辉.) ^[1] | 兰海 (兰海.) ^[2] | 魏宪 (魏宪.) ^[3]

Abstract：

由于视觉Transformer结构模型参数量大、浮点计算次数高,使得其难以部署到终端设备上.因为注意力矩阵存在低秩瓶颈,所以模型压缩算法和注意力机制加速算法不能很好地平衡模型参数量、模型推理速度和模型性能之间的关系.为了解决上述问题,本文设计一种轻量级的ViT-SST模型用于图像分类任务.首先,通过将传统全连接层转换为可分离结构,大幅度降低模型参数量且提高了模型推理速度,保证了注意力矩阵不会因出现低秩而破坏模型表达能力;其次,提出一种基于SVD分解的克罗内克积近似分解法,可以将公开的ViT-Base模型预训练参数转换至ViT-Base-SST模型,略微缓解了ViT模型的过拟合现象并提高了模型精度.在常见公开图片数据集CIFAR系列和Caltech系列上的实验验证了本文方法优于对比方法.

Keyword：

图像分类模型压缩深度学习计算机视觉

Community：

[ 1 ] [魏宪]中国科学院福建物质结构研究所泉州装备制造研究中心,福建泉州 362200
[ 2 ] [黄延辉]福州大学
[ 3 ] [兰海]中国科学院福建物质结构研究所泉州装备制造研究中心,福建泉州 362200

Reprint 's Address：

Email：

Show more details

Version：

基于可分离结构变换的轻量级Vision Transformer
2022，计算机与现代化
基于可分离结构变换的轻量级Vision Transformer
2022，计算机与现代化

Related Keywords：

Source ：

计算机与现代化

ISSN： 1006-2475

Year： 2022

Issue： 10

Page： 75-81

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 2

Affiliated Colleges：

Get Fulltext

Library Discovery Baidu Scholar Search WF WF WF WF WF WF WF WF WF WF WF WF WF WF WF WF WF WF WF WF WF WF

Type
Departments

All Years Choose Year From to