基于结构一致和特征学习的网页信息标签提取 - Details

author：

杜博远 (杜博远.) ^[1] | 王美清 (王美清.) ^[2] (Scholars：王美清) | 陈长福 (陈长福.) ^[3] | 陈飞 (陈飞.) ^[4] (Scholars：陈飞)

Indexed by：

CQVIP PKU CSCD

Abstract：

网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助.由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法.该算法包含三个步骤:网页对比、内容识别和标签提取.在51个模块下对1620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确.

Keyword：

信息提取特征学习结构一致网页标签

Community：

[ 1 ] [杜博远]福州大学
[ 2 ] [王美清]福州大学
[ 3 ] [陈长福]福建库易信息科技有限责任公司,福州,350000
[ 4 ] [陈飞]福州大学

Reprint 's Address：

Email：

Show more details

Version：

基于结构一致和特征学习的网页信息标签提取
2017，计算机工程与应用
基于结构一致和特征学习的网页信息标签提取
2017，计算机工程与应用

Related Keywords：

Source ：

计算机工程与应用

ISSN： 1002-8331

CN： 11-2127/TP

Year： 2017

Issue： 7

Volume： 53

Page： 74-78,120

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 0

Affiliated Colleges：

数学与统计学院本学院/部未明确归属的数据

Get Fulltext

DOI Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to