• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

于娟 (于娟.) [1] (Scholars:于娟) | 颜煜铃 (颜煜铃.) [2] | 简梓炜 (简梓炜.) [3] | 张晨 (张晨.) [4]

Abstract:

西班牙语(以下简称西语)是仅次于汉语的世界第二大母语语言, 是联合国6种官方语言之一. 西语复杂的词形变化和语法规则, 导致C-value等经典的词语提取方法的效果无法保证, 进而影响基于西语文本挖掘的效果.因此, 本文研究西语文本词语提取方法, 为西语文本的结构化建模提供完备的词库. 给定待分析的西班牙语文本, 该方法分3步提取得到词语集合: 文本预处理、候选词语提取和DC-value成词度计算. 其中, 前两步所得的候选词语集合可直接用作文本挖掘的词库; 第三步所得的候选词语成词度可辅助判断候选词语成词的可能性, 减轻人工判断的工作量. 实验结果表明, 本文方法自动提取的西文词语集合的准确率达到80%, 且召回率远高于经典方法, 能够为西语文本挖掘提供有效的词库.

Keyword:

Community:

  • [ 1 ] [于娟]福州大学
  • [ 2 ] [颜煜铃]福州大学
  • [ 3 ] [简梓炜]福州大学
  • [ 4 ] [张晨]福州大学

Reprint 's Address:

Email:

Show more details

Related Keywords:

Related Article:

Source :

计算机系统应用

ISSN: 1003-3254

CN: 11-2854/TP

Year: 2021

Issue: 6

Volume: 30

Page: 271-277

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 0

Online/Total:80/10027852
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1