基于网页DOM树节点路径相似度的正文抽取 - Details

author：

潘心宇 (潘心宇.) ^[1] | 陈长福 (陈长福.) ^[2] | 刘蓉 (刘蓉.) ^[3] | 王美清 (王美清.) ^[4] (Scholars：王美清)

Indexed by：

CQVIP

Abstract：

由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法.依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文.通过对不同类型的中文新闻网站上的1　000个网页进行实验,结果表明该方法对于97.6％的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30％的准确率和95.59％的召回率.所提算法对不同类型的网页都有较好的适应性.

Keyword：

DOM树 HTML标签信息抽取正文抽取网页去噪

Community：

[ 1 ] [潘心宇]福州大学
[ 2 ] [陈长福]福建库易信息科技有限责任公司,福建福州,350000
[ 3 ] [刘蓉]福州大学
[ 4 ] [王美清]福州大学

Reprint 's Address：

Email：

Show more details

Version：

基于网页DOM树节点路径相似度的正文抽取
2016，微型机与应用
基于网页DOM树节点路径相似度的正文抽取
2016，微型机与应用

Related Keywords：

基于XSLT的PDF信息抽取技术的研究
2008，计算机与数字工程
基于XML的PDF文档信息抽取系统的研究
2006，中国科学技术情报学会情报研究与竞争情报学术研讨会
基于分隔符的中文论坛信息抽取
2011，福建电脑
基于XML的PDF文档信息抽取系统的研究
2005，现代图书情报技术

Source ：

微型机与应用

ISSN： 1674-7720

CN： 11-5881/TP

Year： 2016

Issue： 19

Volume： 35

Page： 74-77

Cited Count：

WoS CC Cited Count： 0

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 4

Affiliated Colleges：

数学与统计学院本学院/部未明确归属的数据

Get Fulltext

DOI Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to