随着数据库技术和数据库管理系统的广泛应用, 数据库
中存储的数据量急剧增大, 数据库系统提供了对这些数据的
管理和简单的处理功能, 人们可以在这些数据上进行分析处
理, 但如此庞大的数据对人工分析来说是非常困难的, 人们需
要能够对数据进行更高层次的处理, 从中找出规律和模式, 以
帮助人们更好的利用数据进行决策和研究, 这也就是如何进
行数据挖掘, 即从大型数据库中发现并提取出隐藏在其中的
信息的一种新技术, 目的是帮助决策者发现数据间重要的但
被忽略的因素, 这种技术称为数据挖掘(data m ining 简称
DM ) 1〕. 为了便于进行数据挖掘, 数据的存放不再局限于数据
库的规范化形式存储, 而是采用了数据仓库的技术, 对数据进
行一部分预处理, 进行分类或分片, 以加快数据挖掘的速度.
数据挖掘涉及的方面很多, 有人工智能, 神经网络, 数据库, 预
测理论, 机器学习, 统计学, 但数据挖掘的主要方法和任务是
数据总结, 分类发现, 聚类和关联规则的发现.
数据总结的目的是对数据进行浓缩, 传统的方法也是目
前最简单的方法, 就是计算出数据库的各个字段的和值, 平均
值, 方差, 最大最小值并以方图, 饼图的形式显示. 分类是数据 数据挖掘实验室
中非常重要的任务和方法.
现在从统计学和机器学习的角度提出了较多的分类技
术, 其中以ID3 ( Iterat ive D icho tom izer 3)〔2〕算法为代表, 就是
将分类结果以决策树的形式给出, 树的内部节点是一个决策,
而叶节点代表一个类. 以ID3 为代表的一类算法的效率对于
较少的数据而言是适当的, 但是随着数据量的增加和决策属
性的增加, 则效率会大幅下降, 而且不能直接形成规则. 基于
属性分类的数据挖掘方法是以数据库中关系表为基础的而且
在原始数据增加的情况下, 可以通过化简来压缩数据规模, 使
之只与属性值有关系, 而与原始的数据量无关, 而现在的数据
存放中, 几乎所有的数据都是用关系表的形式存放的, 这为基
于属性分类的数据挖掘方法提供了极大的方便, 并可方便得到发现属性间的联系形成决策规则或产生式规则〔3〕.
本文介绍的数据挖掘方法分为两个大步骤, 第一步进行
数据的收集和整理, 形成基础表进行准备工作; 第二步是对基
础表进行属性分类, 并发现其中的关系, 形成决策规则.

