• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

Inventor:

陈国龙 (陈国龙.) [1] (Scholars:陈国龙) | 廖祥文 (廖祥文.) [2] (Scholars:廖祥文) | 陈巧灵 (陈巧灵.) [3] | 杨定达 (杨定达.) [4] | 魏晶晶 (魏晶晶.) [5]

Indexed by:

incoPat

Abstract:

本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。

Keyword:

Reprint 's Address:

Email:

Show more details

Related Keywords:

Related Article:

Patent Info :

Type: 发明授权

Patent No.: CN201410034376.4

Filing Date: 2014/1/24

Publication Date: 2017/2/8

Pub. No.: CN103761312B

公开国别: CN

Applicants: 福州大学

Legal Status: 授权

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 3

Online/Total:605/11061521
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1