• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

陈巧灵 (陈巧灵.) [1] | 廖祥文 (廖祥文.) [2] | 魏晶晶 (魏晶晶.) [3] | 陈国龙 (陈国龙.) [4]

Indexed by:

Scopus PKU CSCD

Abstract:

现有的多记录网页抽取方法通常是对文件对象模型( DOM)树进行整体纵向结构分析,计算的结构相似度普遍偏低,使其不能正确识别记录区域。文中提出基于DOM树层次特征的记录抽取方法,该方法利用DOM树不同层次节点的不同作用对其进行横向分析,将寻找相似子树的问题转换为寻找节点块的相似子块,最后采用双向拓展搜索非重叠重复子块进行记录分隔。实验表明该方法能抽取现有抽取器无法处理的页面,多个数据源的抽取结果验证其有效性。

Keyword:

信息抽取 多记录网页 抽取算法

Community:

  • [ 1 ] [陈巧灵]福州大学
  • [ 2 ] [廖祥文]福州大学
  • [ 3 ] [魏晶晶]福州大学
  • [ 4 ] [陈国龙]福州大学

Reprint 's Address:

Email:

Show more details

Version:

Related Keywords:

Related Article:

Source :

模式识别与人工智能

ISSN: 1003-6059

Year: 2015

Issue: 2

Page: 125-131

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 1

Affiliated Colleges:

Online/Total:98/10105279
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1