一种多记录网页的信息抽取系统及方法 - Details

初始密码提示：姓名拼音首字母【第一个汉字的首字母大写，其他首字母小写】+身份证号（或护照）后六位【包含字母的，字母大写】

手机验证码登录找回密码

Inventor：

陈国龙 (陈国龙.) ^[1] (Scholars：陈国龙) | 廖祥文 (廖祥文.) ^[2] (Scholars：廖祥文) | 陈巧灵 (陈巧灵.) ^[3] | 杨定达 (杨定达.) ^[4] | 魏晶晶 (魏晶晶.) ^[5]

Indexed by：

incoPat

Abstract：

本发明涉及一种多记录网页的信息抽取系统及方法，该系统包括：一个网页预处理模块，用于将HTML网页转换为XHTML网页，并过滤网页中用来渲染显示效果的标签，然后根据标签的嵌套结构，构建文档次序树；一个记录区域定位模块，用于接收文档次序树，并利用横向层次分析法在文档次序树中定位出记录区域的位置；一个记录分隔符识别模块，用于从记录区域中找到记录之间的分隔符并进行存储；以及一个记录输出模块，用于将记录区域里所有文本节点按层次顺序遍历输出，在碰到分隔符时输出分隔线，得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取，抽取速度快、准确度高，通用性强，适用范围广。

Keyword：

Reprint 's Address：

Email：

Show more details

Related Keywords：

Patent Info ：

Type：发明授权

Patent No.： CN201410034376.4

Filing Date： 2014/1/24

Publication Date： 2017/2/8

Pub. No.： CN103761312B

公开国别： CN

Applicants：福州大学

Legal Status：授权

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 3

Affiliated Colleges：

数学与统计学院本学院/部未明确归属的数据

Get Patent

Library Discovery Baidu Scholar Search incoPat

Type
Departments

All Years Choose Year From to