• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

于娟 (于娟.) [1] | 赵慧云 (赵慧云.) [2] | 巫邵诚 (巫邵诚.) [3] | 席运江 (席运江.) [4]

Abstract:

【目的】减少文本分类过程中因语言差异和文本特征选择所导致的语义偏离和丢失,保留更多的文本信息。【方法】首先,采用SBERT的预训练模型进行句子表示;其次,使用句向量旋转相似度方法计算不同文本中句子的相似度并对文本内的句子加权形成文本向量;最后,集成机器学习和神经网络的分类方法完成跨语言文本分类。【结果】在中、英、俄、法、西班牙文等跨语言文本数据集和多语言公开数据集Reuters的分类任务上进行实验的结果表明,所提方法的准确率约为96%,较已有方法有显著提升,且在召回率、精确率和F1值等评价指标上均有所提升。【局限】未考虑句子在文本中的出现位置对其权重的影响。【结论】句向量加权的文本表征方法能够减少语义偏离和语义丢失,从而提升跨语言文本分类的性能。

Keyword:

句向量加权 文本分类 文本相似度 跨语言

Community:

  • [ 1 ] 福州大学经济与管理学院
  • [ 2 ] 华南理工大学工商管理学院

Reprint 's Address:

Email:

Show more details

Related Keywords:

Source :

数据分析与知识发现

Year: 2025

Issue: 02

Volume: 9

Page: 39-47

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 1

Affiliated Colleges:

Online/Total:149/10798764
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1