基于句向量加权的跨语言文本分类方法 - Details

初始密码提示：姓名拼音首字母【第一个汉字的首字母大写，其他首字母小写】+身份证号（或护照）后六位【包含字母的，字母大写】

手机验证码登录找回密码

author：

于娟 (于娟.) ^[1] | 赵慧云 (赵慧云.) ^[2] | 巫邵诚 (巫邵诚.) ^[3] | 席运江 (席运江.) ^[4]

Abstract：

【目的】减少文本分类过程中因语言差异和文本特征选择所导致的语义偏离和丢失，保留更多的文本信息。【方法】首先，采用SBERT的预训练模型进行句子表示；其次，使用句向量旋转相似度方法计算不同文本中句子的相似度并对文本内的句子加权形成文本向量；最后，集成机器学习和神经网络的分类方法完成跨语言文本分类。【结果】在中、英、俄、法、西班牙文等跨语言文本数据集和多语言公开数据集Reuters的分类任务上进行实验的结果表明，所提方法的准确率约为96%，较已有方法有显著提升，且在召回率、精确率和F1值等评价指标上均有所提升。【局限】未考虑句子在文本中的出现位置对其权重的影响。【结论】句向量加权的文本表征方法能够减少语义偏离和语义丢失，从而提升跨语言文本分类的性能。

Keyword：

句向量加权文本分类文本相似度跨语言

Community：

[ 1 ] 福州大学经济与管理学院
[ 2 ] 华南理工大学工商管理学院

Reprint 's Address：

Email：

Show more details

Related Keywords：

Source ：

数据分析与知识发现

Year： 2025

Issue： 02

Volume： 9

Page： 39-47

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 3

Affiliated Colleges：

Get Fulltext

Library Discovery Baidu Scholar Search CNKI

Type
Departments

All Years Choose Year From to