• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

潘心宇 (潘心宇.) [1] | 陈长福 (陈长福.) [2] | 刘蓉 (刘蓉.) [3] | 王美清 (王美清.) [4]

Indexed by:

CQVIP

Abstract:

由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。

Keyword:

DOM树 HTML标签 信息抽取 正文抽取 网页去噪

Community:

  • [ 1 ] 福州大学数学与计算机科学学院,福建福州350108
  • [ 2 ] 福建库易信息科技有限责任公司,福建福州350000

Reprint 's Address:

Email:

Show more details

Related Keywords:

Related Article:

Source :

微型机与应用

ISSN: 1674-7720

Year: 2016

Issue: 19

Volume: 35

Page: 74-77

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count: -1

30 Days PV: 0

Affiliated Colleges:

Online/Total:34/10071074
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1