• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

于娟 (于娟.) [1] | 颜煜铃 (颜煜铃.) [2] | 简梓炜 (简梓炜.) [3] | 张晨 (张晨.) [4]

Abstract:

西班牙语(以下简称西语)是仅次于汉语的世界第二大母语语言,是联合国6种官方语言之一.西语复杂的词形变化和语法规则,导致C-value等经典的词语提取方法的效果无法保证,进而影响基于西语文本挖掘的效果.因此,本文研究西语文本词语提取方法,为西语文本的结构化建模提供完备的词库.给定待分析的西班牙语文本,该方法分3步提取得到词语集合:文本预处理、候选词语提取和DC-value成词度计算.其中,前两步所得的候选词语集合可直接用作文本挖掘的词库;第三步所得的候选词语成词度可辅助判断候选词语成词的可能性,减轻人工判断的工作量.实验结果表明,本文方法自动提取的西文词语集合的准确率达到80%,且召回率远高于经典方法,能够为西语文本挖掘提供有效的词库.

Keyword:

DC-value 文本挖掘 西语文本 词语提取

Community:

  • [ 1 ] 福州大学经济与管理学院

Reprint 's Address:

Email:

Show more details

Related Keywords:

Source :

计算机系统应用

Year: 2021

Issue: 06

Volume: 30

Page: 271-277

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 0

Affiliated Colleges:

Online/Total:84/10035992
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1