基于DOM树层次特征的多记录网页抽取? - Details

初始密码提示：姓名拼音首字母【第一个汉字的首字母大写，其他首字母小写】+身份证号（或护照）后六位【包含字母的，字母大写】

手机验证码登录找回密码

author：

陈巧灵 (陈巧灵.) ^[1] | 廖祥文 (廖祥文.) ^[2] | 魏晶晶 (魏晶晶.) ^[3] | 陈国龙 (陈国龙.) ^[4]

Indexed by：

Scopus PKU CSCD

Abstract：

现有的多记录网页抽取方法通常是对文件对象模型(　DOM)树进行整体纵向结构分析，计算的结构相似度普遍偏低，使其不能正确识别记录区域。文中提出基于DOM树层次特征的记录抽取方法，该方法利用DOM树不同层次节点的不同作用对其进行横向分析，将寻找相似子树的问题转换为寻找节点块的相似子块，最后采用双向拓展搜索非重叠重复子块进行记录分隔。实验表明该方法能抽取现有抽取器无法处理的页面，多个数据源的抽取结果验证其有效性。

Keyword：

信息抽取多记录网页抽取算法

Community：

[ 1 ] [陈巧灵]福州大学
[ 2 ] [廖祥文]福州大学
[ 3 ] [魏晶晶]福州大学
[ 4 ] [陈国龙]福州大学

Reprint 's Address：

Email：

Show more details

Version：

Multirecord webpage extraction based on DOM tree hierarchical feature
2015，Pattern Recognition and Artificial Intelligence

Related Keywords：

基于DOM树层次特征的多记录网页抽取
2015，模式识别与人工智能
基于ALBERT模型的园林植物知识实体与关系抽取方法
2021，地球信息科学学报
基于DOM树抽象的包装器自动生成技术
2018，计算机应用
基于Web新闻的案(事)件时空信息解析方法
2017，福州大学学报（自然科学版）

Source ：

模式识别与人工智能

ISSN： 1003-6059

Year： 2015

Issue： 2

Page： 125-131

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 2

Affiliated Colleges：

Get Fulltext

DOI Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to