RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论
DBMiner 2 下载
  • 文件类型: Doc
  • 软件大小: MB
  • 软件类别: 国产软件
  • 软件语言: 简体中文
  • 授权方式: 共享软件
  • 运行环境: Win2003,WinXP,Win2000,Win9X
  • 更新时间: 2008-01-16
  • 官方网址: http://www.ChinaKDD.com/sns
软件简介:

DBMiner是加拿大Simon Fraser 大学(简称SFU)智能数据库研究所的开发的商品化数据仓库与知识发现集成系统。该研究所的学术带头人韩家炜(Jiawei Han)教授是国际上最著名的几个KDD专家之一。该页面要求下载者在CGI表格中填写电子邮件地址等用户信息,并给用户发一封包含解压安装的口令的邮件。 DBMiner在Windows95 /98 /NT平台上运行,能迅速高效地建立数据仓库、并进一步从数据中采掘隐含于数据中的知识(关联规则、分类规则、宏观数据、趋势等),辅助管理者决策。


2.DBMINER 的安装

DBMiner教育版的安装工作简单顺畅,且同时安装一个基于MS Aceess的教学演示数据库,库文件名为 "DBMinerWH.mbd。其中有若干个数据表(关系),例如销售数据表(Sales)等等。为了使用DBMiner提供教学演示库,单机用户应先安装好Access数据库系统(是Office的一个组件) ,而Windows NT用户应安装好SQL Server、并设置足够的使用权限和安装好ODBC。下面以在单机Acceess上使用教学数据为例,循序渐进,带领读者渐入佳境。

3 建立数据仓库和多维数据库

(1) 启动 单击DBMiner图标,依次回答系统提问,服务器=Local Warehouse(即本地机作数据仓库服务器),数据仓库名=DemoWH.可以见到数据仓99库树型结构(图1),在DemoWH/Schema/Tables之下是基本数据表(关系数据库)单击其中的Sales,可以看销售表中若干字段∶ category ( 类型),Ddatailed_category (细类), name(名称), region(地区),county(州), city(城市)(以上6个字段类型均为CHAR,长度255);revenu(税收), quntity(商品数量),cost(F成本),最后3字段类型为float。

(2) 初始化数据仓库模式。如图1,选定 "Schema -> 单击鼠标右键 ->在弹出菜单中单击New …” -> 选Sales ->选OK,系统按默认方式建立用于演示的数据仓库。

(3) 建立默认的数据立方(即 多维数据库)。左键单击cube/sales_cub可以看到数据立方的DIMENTION(维属性)和MEASUREMENT(度量属性),维属性在显 示时作三个坐标轴的属性,度量属性是被显示的属性(用立方快的色谱表示,红高兰低),可以有多个维和度量,由于人的视觉只能理解三维图形,在显示时,一次 只能在临时指定的

图1

三个维上显示一个指定度量。在用户可以更改维

与度量。鼠标右键单击Schema /cube /sales_cub,

图2

再选build, 系统建立数据立方,需要大约半分钟。

图2中Schema/Sales目录下是建立好的数据仓

库,其中∶

  1. COLUMNS重复了数据表的列(即字段)结

构.9

(b) DIMENSIONS(维) 目录下为坐标属性,默认选定了价格(cost) 税收(revenu)和数量(quantity)。

(c) MEASUREMENT(度量)目录下为显示属性,演示库选用了税收、数量和成本。

(d) CUBUS目录下为按照上述的维和度量组成的数据立方(多维数据库),名称为 Sales_cube。 4 数据仓库可视化浏览和查询

4.1 浏览数据立方

鼠标右键单击Schema/sales/cubes/sales_cub在弹出菜单中选browse,浏览数据立方。结果如图3。 图3中,位置(location)可以在地区、国家和城市三个级别上下访和上查。在图3中的工具条中图标功能是(从左向右):返回上访下查的起点,设定返回点,鼠标模式, 放大、旋转、平移、切片、标字、网格、灯光效果、色谱、选维和度量。

小立方块的色表示了在三维坐标点(产品,销售地,数量)处的税收统计值(这里指定的总计),用鼠标标指向小立方块,立即显示其统计数值。

4.2 上访(roll up)下查(Drill down)

观察了图3中的宏观信息后,用户如想了解蓝色

图3 税收宏观分布(小方块的颜色),坐标系∶

X=位置, Y=产品,Z=(排序)数量,

块(最低)和红色块(最高)立方块的细节,只需双击立方小块,得到相对微观的信息,如图4。这一过程成为下查(Drill down,借用钻探时,钻下去取出岩心),其反向操作,则称为上访(Roll UP 原意是把钻杆抽出)

图4

5 采掘各种类型的知识

通过工具条图标选择采掘精灵(Mining Wizard),单击被处理数据立方(例如Sales_cub),弹出菜单中列出7种任务(即被采掘知识)类型∶总结(OLAP)、关联、分类、预测、比较、聚类、时序. 由于DbMiner采用了驻留内存的大数组技术,计算速度快,例如100万条记录的数据仓库的单项知识采掘,一般能在几分钟内完成。下面通过简单的描述或例子说明。

5.1采掘总结知识及联机事务处理(OLAP)。

例1∶用户在对话框中选定被分析度量(如成本、税收)、参照维(如地区、产品)。DBMiner

以相当高的速度产生类似图5的表格,表中显示成本、税收的实际值和百分比(单击切换)

地区

产品

亚洲 欧洲
PC 1000 ,25% 3000,75%
工作站 100, 20% 400, 80%

图5

5.2关联规则的采掘。

Dbminer能从数据中挖掘出出若干对象之间联系的知识。

例2 ∶采掘属性间的关联,指定属性为产品和税收,演示库中采掘出的关联规则如下表

规则号 Body 蕴涵 Head 支持度 置信度
1 商品=巧克力   税收=0 1000 3% 9375%
2 商品=果汁   税收=0 1000 23% 7417%
3

表中规则1的直观解释是∶有93.75%的巧克力的税收在1000美元以下,关于巧克力税收的记录占税收纪录的3%,

3 (采掘属性内的关联),属性内的关联往往能给出出人意料的信息,例如 规则 尿布 啤酒, 支持度 0.01,置信度 0.8 ” 表明,有1%的顾客买了尿布和啤酒,而且在所有买了尿布的顾客中,有80%都买了啤酒。通常人们认为风马牛不相及的啤酒和尿布之间竟然有如此大的联系!(有了这一知识后,人们进一步调查,才发现先生们在为婴儿买尿布时,总不忘为自己顺便买些啤酒。)

53 预测。通过对已知数据的分类和规律的分析,DbMiner能计算出未知数值,估计数据分布和变化趋势。例如一个新的顾客A光顾超级市场并获得顾客优惠卡后,超级市场为它建立了一个消费历史,根据两三次消费行为,可以把该顾客归类于某一消费群体G。从G中大多数它顾客已经购买的商品B的置信度可以预测顾客A也将购买商品B的置信度。

5.4比较。决策者从图3中宏观地观察到对象度量值最大的红色块和最小的蓝色块后,想知道引起差异的原因,用DBMiner的比较功能,能迅速地从各种角度(属性值、统计值,变化趋势等)找出两个指定对象的相同之处和不同处。

5.5聚类。

例如∶ 用户指定∶对什么维分类、分类依据(属性名)、聚类门限(1-100%),噪声门限(0-10%),训练/测试数据的比系统按被分析对象的内在特征,DBMiner将被分类对象分为自然类,使得类间差别大,而类内差别小。

6时序规则.发现事物变化的规律如周期性特征、变化特征(例如某股票每周二开始上扬而周四下降),二对象之间与时态有关的关联 (例如每次洪涝灾害高峰后二个月,有某些疾病的高峰)

7 数据采掘语言(DMQL)

DMQL是一种SQL语言的变体,用于数据采掘编程。DMQL免去了交互式一步步指定对象和条件的过程,把常用的采掘查询存储为程序文件,可大大简化采掘难度,提高效率。

例4 。下列DMQL语句从数据立方sales_Cube 可以采掘以位置、产品和数量为坐标的关于税收和成本的总结知识。

mine Summary

analyze revenue,cost

with respect to location, product, Quantity

from cube sales_Cube

8 DBMiner的成功之处与特色

(1)目前在微机平台上,关于数据采掘和知识发现的处于乍暖还寒的状态,商品化软件殊为鲜见。Dbminer抓住了这一机会,以其在目前的领先水平和免费的教育版宣传了自己、抓住了用户。这是DbMiner的成功点之一。

(2)DBMiner 通过ODBC连接多种数据库源(Oracle,Sybase,SQL sevet Sybase,Xbase Text,)。 把数据仓库、多维数据库和数据采掘技术集成在一个紧凑的系统中。

(3) 从数据采掘的功能较为完整。DBMiner 实现了切片(dicing), 切块( slicing), pivoting和下查(d drilling)操作和)高效的数据采掘语言(DMQL)。

(4) DBMiner提供了直观的图形用户界面,可视化的数据浏览工具,和联机事务分析(OLAP)和联机分析采掘(OLAM)能力。

(5)能处理千兆级的大型数据库。

9 DBMiner目前版本的不足

(1) DbMiner的快速立方技术本质上是基于内存中的多维数组。因而DbMiner要求较大的内存。教育版的小演示库在16兆内存尚可运行,但当基础数据库 规模在1兆级时,内存至少要32兆,而64兆或128兆才有较理想的速度。根据小级别数据的经验,目前版本对千兆级的数据采掘的速度不会很理想。

(2)DbMiner目前还是面向数据而不是面向主题的。需要用户了解被对采掘库的结构(表,字段的名称)。然后建立数据立方。一个数据立方只能对应一个表或视图。在对多个表综合涉及前,用户还必须首先建立视图。

(3)曾经有专家从用户角度来区别数据库、数据仓库和数据采掘技术∶数据库用户是下级雇员,数据仓库用户是中层雇员,而数据采掘是用户是老总们(总经济师,总会计师、总经理等)。经验表明,目前的数据采掘系统,包括DBMiner当前版本

下载地址:
下载地址:
进入下载地址列表
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册