• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

杜博远 (杜博远.) [1] | 王美清 (王美清.) [2] (Scholars:王美清) | 陈长福 (陈长福.) [3] | 陈飞 (陈飞.) [4] (Scholars:陈飞)

Indexed by:

CQVIP PKU CSCD

Abstract:

网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助.由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法.该算法包含三个步骤:网页对比、内容识别和标签提取.在51个模块下对1620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确.

Keyword:

信息提取 特征学习 结构一致 网页标签

Community:

  • [ 1 ] [杜博远]福州大学
  • [ 2 ] [王美清]福州大学
  • [ 3 ] [陈长福]福建库易信息科技有限责任公司,福州,350000
  • [ 4 ] [陈飞]福州大学

Reprint 's Address:

Email:

Show more details

Related Keywords:

Related Article:

Source :

计算机工程与应用

ISSN: 1002-8331

CN: 11-2127/TP

Year: 2017

Issue: 7

Volume: 53

Page: 74-78,120

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 0

Online/Total:56/10051229
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1