如何使用“排序哈希簇”来提高查询速度

当数据存储在一个普通表中的时候,这些记录将以插入到数据库时的顺序物理地保存到分配的块中。例如,如果有一个用于存储员工信息的表,那么员工姓名将会按照插入到表的顺序存储在表中。

如果员工记录非常多的话,那么数据表的响应速度就会逐渐变慢。你可以通过选择值相对等分布的一列(如员工的部门编号)并建立一个簇表来提高查询员工的速度。

在簇表中,如果员工属于同一个部门,那么它们的记录将物理地存储在同一系列的块中。这样就可以提高查找员工信息的速度,这是因为在检索某个特定部门的员工时,需要读取数据库块的数量减少了。而在非簇表中查找员工,就可能需要对每个数据库块进行访问。

当表中存在大量键值的时候,你就会开始发现由于存在许多簇块而导致的性能问题。避免这个问题的一个方法就是使用一个哈希函数来约束簇块的数量。哈希函数将会给定一个数值用来限定簇块数量的预计范围,但它得到的值是相对等分布的。例如你可以创建一个哈希函数,只比较部门编号的最后两位。

哈希函数中存在的一个问题就是函数值会打乱记录原本的顺序。你可以通过 ORDER BY来解决这个问题;但是,在很多情况下,记录数量是非常庞大的。在Oracle 10g 中,你可以将一个数据定义为“natural order” ,那么就可以不用经过排序而以你所希望的顺序来检索哈希簇的数据,从而解决了上面的提出问题。

例如,假设你有一个信用卡业务的数据库。你决定以信用卡号作为簇主键将有利于数据的存储分布。但是,由于存在大量的信用卡号,所以可以使用一个哈希函数来约束簇块的数量。而且你希望在你的大部分报表中数据是按照时间顺序排列的,那么在进行每个查询操作时使用排序哈希簇,而不要使用ORDER BY。下面给出了相关语句:

  create cluster credit_cluster ( 
  card_no varchar2(16), 
  transdate date sort 
  ) 
  hashkeys 10000 hash is ora_hash(card_no) [znP80w1( 
  size 256; 
  create table credit_orders 
  ( 
  card_no varchar2(16), transdate date, 
  amount number ) 
  cluster credit_cluster(card_no,transdate); 
  alter session set nls_date_format = "YYYYMMDDHH24MISS"; 
  insert into credit_orders (card_no,transdate,amount) 
    values ("4111111111111111","20050131000123",57.99); 
  insert into credit_orders (card_no,transdate,amount) 
  values ("4111111111111111","20050130071216",16.59); 
  insert into credit_orders (card_no,transdate,amount) 
  values ("4111111111111111","20050131111111",39.00); 
  insert into credit_orders (card_no,transdate,amount) 
  values ("4111111111111111","20050130081001",25.16); 数据挖掘交友 

可以看到我在这里使用了一个新函数ORA_HASH 来为信用卡建立一个哈希数值。现在,你可以非常简单地对某个信用卡数据进行查询,并返回自动排序后的结果。(责任编辑:卢兆林)

数据挖掘工具

Create By Any-Extract(WL-AE) 数据挖掘工具

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:轻松接触分布式数据库全局名与数据库链
下一篇:如何查找运行系统里的"bad sql"语句
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • IBM放出“毒蛇”欲一统数据库市场
  • Oracle Delivers New Release of PeopleToo
  • Oracle: Separating Numbers and Letters
  • DBA from Crisis to Confidence
  • [Oracle]创建索引对SQL语句执行的影响
  • Oracle9i数据挖掘介绍
  • Oracle TimesTen In-Memory Database
  • Oracle 10G数据库的特性简介
  • Oracle RAC Administration - Part 13: Cac
  • 用Oracle分层管理器实现有效存储数据
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • Oracle 10g Backup Guide: A Small County
  • Oracle 10G数据库的特性简介
  • Oracle TimesTen In-Memory Database
  • Oracle9i数据挖掘介绍
  • Low–Cost, High–Performance Data Securi
  • Oracle DML Error Logging
  • ORACLE问题,每天10问(十一)
  • 浅析Oracle和SqlServer存储过程的调试、出
  • Oracle数据的异地自动备份
  • Oracle数据库在一台机器配置两个listener
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静