• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

杜博远 (杜博远.) [1] | 王美清 (王美清.) [2] | 陈长福 (陈长福.) [3] | 陈飞 (陈飞.) [4]

Indexed by:

CQVIP PKU CSCD

Abstract:

网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。

Keyword:

信息提取 特征学习 结构一致 网页标签

Community:

  • [ 1 ] 福州大学数学与计算机科学学院,福州350000
  • [ 2 ] 福建库易信息科技有限责任公司,福州350000

Reprint 's Address:

Email:

Show more details

Related Keywords:

Related Article:

Source :

计算机工程与应用

ISSN: 1002-8331

Year: 2017

Issue: 7

Volume: 53

Page: 74-78

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count: -1

30 Days PV: 0

Affiliated Colleges:

Online/Total:265/10059271
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1