• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

苏俊宁 (苏俊宁.) [1] | 叶东毅 (叶东毅.) [2] (Scholars:叶东毅)

Indexed by:

CQVIP PKU CSCD

Abstract:

不平衡数据分类是数据挖掘和机器学习领域的一个重要问题,其中数据重抽样方法是影响分类准确率的一个重要因素.针对现有不平衡数据欠抽样方法不能很好地保持抽样样本与原有样本的分布一致的问题,提出一种基于样本密度峰值的不平衡数据欠抽样方法.首先,应用密度峰值聚类算法估计多数类样本聚成的不同类簇的中心区域和边界区域,进而根据样本所处类簇区域的局部密度和不同密度峰值的分布信息计算样本权重;然后,按照权重大小对多数类样本点进行欠抽样,使所抽取的多数类样本尽可能由类簇中心区域向边界区域逐步减少,在较好地反映原始数据分布的同时又可抑制噪声;最后,将抽取到的多数类样本与所有的少数类样本构成平衡数据集用于分类器的训练.多个数据集上的实验结果表明,与现有的RBBag、uNBBag和KAcBag等欠抽样方法相比,所提方法在F1-measure和G-mean指标上均取得一定的提升,是有效、可行的样本抽样方法.

Keyword:

不平衡数据 密度峰值 样本权重 欠抽样 集成学习

Community:

  • [ 1 ] [苏俊宁]福州大学
  • [ 2 ] [叶东毅]福州大学

Reprint 's Address:

Email:

Show more details

Related Keywords:

Source :

计算机应用

ISSN: 1001-9081

CN: 51-1307/TP

Year: 2020

Issue: 1

Volume: 40

Page: 83-89

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 4

Online/Total:63/10007301
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1