Abstract:
【目的】减少文本分类过程中因语言差异和文本特征选择所导致的语义偏离和丢失,保留更多的文本信息。【方法】首先,采用SBERT的预训练模型进行句子表示;其次,使用句向量旋转相似度方法计算不同文本中句子的相似度并对文本内的句子加权形成文本向量;最后,集成机器学习和神经网络的分类方法完成跨语言文本分类。【结果】在中、英、俄、法、西班牙文等跨语言文本数据集和多语言公开数据集Reuters的分类任务上进行实验的结果表明,所提方法的准确率约为96%,较已有方法有显著提升,且在召回率、精确率和F1值等评价指标上均有所提升。【局限】未考虑句子在文本中的出现位置对其权重的影响。【结论】句向量加权的文本表征方法能够减少语义偏离和语义丢失,从而提升跨语言文本分类的性能。
Keyword:
Reprint 's Address:
Email:
Source :
数据分析与知识发现
Year: 2025
Issue: 02
Volume: 9
Page: 39-47
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 1
Affiliated Colleges: