Indexed by:
Abstract:
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助.由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法.该算法包含三个步骤:网页对比、内容识别和标签提取.在51个模块下对1620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确.
Keyword:
Reprint 's Address:
Email:
Version:
Source :
计算机工程与应用
ISSN: 1002-8331
CN: 11-2127/TP
Year: 2017
Issue: 7
Volume: 53
Page: 74-78,120
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 0
Affiliated Colleges: