摘要:本文介绍了一个基于关联规则的数据采掘工具ARMiner的设计和实现。ARMiner运用了概念层次、兴趣度、负属性项和API函数封装等新的思想方法,对数据采掘工具的实现进行了有益的尝试,最后对未来的工作提出了展望。
关键词:关联规则,负属性项,兴趣度,概念层次
1 引言
ARMiner(Association Rules Miner)是我们通过对数据采掘系统[1-3]的研究后,在提出一个数据采掘工具集的体系结构—AMINER[4]的背景下,从实际商业应用出发,分析具体的商业需求,结合关联规则的学术研究,最终形成的基于关联规则的数据采掘系统。 数据挖掘研究院
ARMiner系统的目标是开发适用于智能化POS 系统的数据采掘工具,作为数据仓库的重要工具,为决策提供支持。ARMiner数据采掘过程对领域知识的要求可以进行外界干预,因此具有一定的灵活性。ARMiner的另一个特点是系统引入了兴趣度[5]作为关联规则的新的评价标准之一,利用兴趣度过滤缺乏价值的关联规则,并在此基础上提出了包含负属性项的关联规则改进算法,使得关联规则所包含的语义更加完整。与此同时,ARMiner还提供了可供二次开发的API函数,这些API函数能与多种开发环境无缝地集成,方便了系统的推广和应用。
2 系统设计 数据挖掘实验室
ARMiner系统沿袭Aminer工具[5]的体系,主要包括数据预处理、数据采掘、数据评价三部分,体系结构如图1所示,它既适合C/S(客户/服务器)两层结构,又可用于B/W/S(浏览器/Web服务器/数据库服务器)三层结构。将核心算法存放在服务器端,客户端通过API函数调用各种功能,一方面增强算法执行的效率,另一方面这些API函数又能用于二次开发,提高了系统的开放性。
如图1所示,ARMiner系统包括数据预处理模块,数据采掘模块,以及数据评价模块,下面介绍模块的功能。 数据挖掘研究院
数据预处理模块:将来自关系数据库、多维数据库、数据仓库或者文件系统的数据进行转化,对于大数据集,可以通过数据采样减少处理的数据量,然后利用数据清理等手段清除脏数据,将数据整合成能被采掘算法利用的数据,最后存入数据采掘库。同时可以利用概念层次树对原始数据进行必要的抽象,使得采掘模块能够处理数据各个抽象层次,而不是仅对细节数据进行采掘。
数据采掘模块:在友好的导航界面(Wizard)引导下,使用合适的算法对数据采掘库中的数据进行采掘,它可以使用索引、并行或删减分支等技术提高运行效率,并把采掘结果输出给数据评价模块。

