Abstract:
关联规则挖掘是数据挖掘中一个基本而重要课题,它反映了大量数据中的某些项目之间隐含的相关性和依存性。对于如何更高效地求解,多年来已经有许多研究者从不同方面进行尝试,并提出了各自的算法:Agrawal提出了经典的Apriori算法,自底向上地求解所有频繁项目集;韩家炜等人根据数据集的特点,提出了具有针对性的FP-tree结构,大大地降低了扫描数据库所需的代价;还有通过求解最大频繁项目集,来对问题进行转化求解的多种算法。其中最大频繁项目集挖掘是近年来很受关注的一类方法。在这一方面,比较具代表性的有Max-Miner、FpMax、DMFIA等。Max-Miner。的特点是改变了自底向上的传统思路,采用动态排序的方法对项目集进行了剪枝,但在修剪时未利用自顶向下的信息,未对MFCS进行排序;Fp-Max算法的最大特色是将已挖掘出的最大频繁项目集使用FP-tree结构进行保存,减小了筛选候选频繁项目集的代价;DMF1A则结合了自底向上和自顶向下的特点,在FP-tree结构中采用非递归的方式进行挖掘,但在候选频繁项目集的剪枝上效率不够理想。事实上,在实际应用中,数据往往有以下特点:①分布式结构,数据并不存在单一数据库中,而是分布式存储;②稀疏,一件事务所含项目的个数远小于项目总数;③可归并,经过简单的排序和比较就可以发现事务是可归类的,某一类事务的所含的项目集都是某个集合的子集。以超市数据库为例,超市分为多家连锁店,各店拥有独立的购物记录;商品种类繁多,而购物者一次购买的商品数目较少;商品可分为电器、食品、家具等门类,购物者一次只购买其中一类或几类商品。如何根据实际数据的特点,充分利用项目间的关联程度进行分布式求解,是本文要讨论和希望解决的问题。
Keyword:
Reprint 's Address:
Email:
Source :
Year: 2007
Page: 76-79
Language: Chinese
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 7
Affiliated Colleges: