RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

数据仓库应用的信息集成方案

来源: 作者:unkonwn 时间:2004-12-08 点击:
 数据仓库走向信息集成概述
数据仓库正在改变,改变以因应新的商务需求。当然,原来对数据存储的许多要求仍然存在,比如要能带来商业价值,要使数据简洁和前后一致,要可以对信息随意分块、切片和挖掘。对数据仓库的新的基本要求涉及数据的时效性和可扩展性-其目的在于使企业级用户在需要时可以得到当前的、远程的或非结构化的数据。所有这些数据必须与用户过去通常通过数据仓库和数据中心提供的历史信息进行无缝集成。
这些要求是在过去几年中逐步显示出来的。IT 机构通常是通过创建运作数据存储 (ODS) 或干脆以更高的速度周期性地向数据仓库加载越来越多的数据,来满足对数据存储的新要求。然而,向数据仓库不断存入新的实时数据的方法成本很高,对大多数企业来说很不划算。而且有些数据(甚至可能是很重要的数据),由于它们的用法、大小或格式不适合于数据仓库或用户查询,因而不能或不需要保存在数据仓库中。 为了成功地满足这些需要,企业需要新的方法,不必首先将所有数据存入数据仓库就可以对信息进行集成和发送。这正是 IBM 信息集成观所要达到的目标。该目标旨在实现数据位置和格式对用户或应用程序的透明,使传统数据仓库的中央、本地访问与对远程数据的分布式访问可以统一在同一个基础架构内。

我们并不是要您舍弃您在数据仓库方面投入的所有设备和资金。实际上,从许多方面来说,信息集成都是您过去为建立和维护现有数据仓库所做努力的自然和合乎逻辑的延伸。 数据挖掘研究院
首先,本方案概述了数据仓库技术在过去 20 年里的发展历程。它向人们说明了为什么数据集成是数据仓库技术的基础,并进而阐述了为什么信息集成概念是数据仓库技术逻辑发展的必然结果。它还描述了对几近实时的数据和在数据仓库中进行一定程度的读/写操作的不断增长的需要,如何迫使传统数据仓库架构发生了改变。 数据挖掘研究院

然后,本方案将集中分析信息集成在分布式访问方面的内容,描述了这一技术如何对数据在本地、在有所规定、有所控制的环境下进行直接访问,从而满足这些新的商务需要。它还专门讨论了该联邦技术功能在哪些情况下适合和不适合使用的问题。

数据挖掘研究院

 
  数据仓库-20年的发展趋势

当初企业需要数据仓库技术的原因是众所周知的。简单地说,就是利用数据仓库为最终用户提供可用和易懂的商业信息。虽然其中一些信息已经存在于企业的 IT 系统中,但显然还有巨量的原始数据在那里,并可以转换成有用的信息。

为满足这些商业需求,IBM 和其他公司一起于 20 世纪 80 年代中后期提出了现在已被广为接受的三层数据架构。但是,为什么要把数据分为那么多层呢?这里有两个基本原因。第一是出于性能上的考虑。如果允许最终用户的复杂查询运行于为其他目的而设计和优化的运作系统上,则这些查询可能会严重影响这些底层系统的性能。同时,最终用户查询的响应时间也可能很差。这便要求数据架构至少要分二个层次,一个在本质上为运作层,另一个为信息层。

80年代中期:三层数据仓库

数据挖掘研究院

 

 

采用三层架构的第二个原因是使多个业务观点建立在统一的信息基础之上。这里需要解释一下。首先,大家知道,由于其定义的时间和目的不同,各种运作系统看待世界的观点也不同。比如,一个系统对"客户"的定义可能与另一个系统的不同。记录集可能相互重叠,记录明细可能不一致。为了提供一个一致、全面的业务观点,首先要对基本运作系统数据进行协调,使之保持一致。这些经过协调一致的数据及其历史,以基本上标准化的形式存入商务数据仓库 (BDW) 中。虽然解决了一致性问题,但这些数据还不是企业需要的形式,也不具有查询的可操作性。数据架构的第三层,数据中心,要解决的就是此类问题。在这一层,经过协调的数据被进一步转换为支持最终用户对不同业务观点的需要,并且可以简便快捷地查询的信息集。 这种三层数据架构付出的明显代价之一是,在数据到达运作系统和出现在数据中心之间,造成了相当长的延迟时间。这在以前对大多数公司来说并无大碍。实际上,与过去常常要忍受的长达数周的数据协调时间框架相比,这种数据架构轻而易举就能实现的区区一天的时间延迟,会令许多公司窃喜不已。然而,20 世纪 90 年代出现的电子商务、客户关系管理 (CRM)、呼叫中心以及其他新事物都对延迟时间提出了更高要求,在某些情况下甚至要求降到一分钟以下。 数据挖掘研究院

高级信息系统
当今的高级信息系统很大程度上,如果不是说完全排他的话,侧重于向用户提供结构化数据。然而,相当数量用于执行决策的输入都是非结构化内容的形式,这一点已被广泛认同。这样的内容被当今的高级信息系统排除在外,因为访问或将其与结构化数据结合都很难,而且如果被存储在数据仓库中它要占用大量空间。此外,这样的内容常常来自外部源,可能很不稳定。
数据挖掘研究院

DB2 Information Integrator 能够解决这些问题。DB2 Information Integrator 与 Lotus Extended Search 一同为种类繁多的内容存储器提供工具和访问。倘若对非结构化内容作了适当索引,利用这些工具可将关系数据与这些非结构化内容相连接。因此,信息集成提供了通过 Internet 或内部网对各种分布式非结构化内容进行访问的理想方式。因为联邦技术在后台运作,数据仓库可通过高级信息系统提供持续的相关内容流,而不必本地存储所有的内容。当然,在适当的时候,DB2 Information Integrator 也能在本地高速缓存数据以增强性能。 数据挖掘研究院

 
  政府机构数据中心的合理化

当今的许多大公司有多个数据仓库,每个数据仓库支持多个数据中心,这些数据中心提供满足部门或功能报告需要的业务信息数据仓库。这在政府部门中尤为明显,那里机构云集,守卫森严,关于个人、企业和资源的敏感信息常常不一致。从实践和行政的角度来说,将这样的数据仓库结合为一个包罗万象的大数据仓库都是不可行的。 数据挖掘研究院

尽管如此,当今存在对降低管理难度、减少不一致性、尤其是增强安全性的需求,这样的需求使建立所有这种信息的合并视图的期望愈加强烈。信息集成提供了解决这些需要的技术基础,尽管一定不能低估必需的数据考古学和建模工作。这样的工作成本会使所需的技术投资相形见绌,无论用怎样的方案 - 新的大数据仓库或是联邦技术方案,似乎都一样。

将 DB2 Information Integrator 作为联邦技术查询引擎,机构可以逐渐解决这个问题。与需要理解两个数据仓库中所有数据的关系映射,然后定义并提供结合它们的方法不同,DB2 Information Integrator 从能立即提供价值的小映射开始,随着时间推移再逐渐扩展解决方案。因此,例如,数据中心 A 的用户可使用联邦技术查询将数据中心 B 中的信息子集与他们自己的信息结合。随着时间的推移,数据中心 B 中更多的信息子集逐渐包含到联邦技术查询中,两个中心间的元数据或映射的基础逐步增长。同样的情况也会发生在反方向上,以及在环境中的其它中心集合之间。将来,不断增长的元数据存储会成为合理化存储器以及传播此信息的基础。 数据挖掘研究院

 
  信息集成对应用开发和数据库管理的价值

怎样才能实现信息集成的好处?对于程序员来说,DB2 Information Integrator 实际上简化了复杂的环境。"一般"的程序员可用一个 SQL 语句从几个数据库中访问数据,无论是 DB2、Oracle 或 SQL Server 还是其它非关系数据源。利用 DB2 Information Integrator,程序员不需要知道多个 SQL 变种,他可以同时管理多个数据库连接,并管理关联多个数据源的复杂的连接逻辑,从而简化了编程复杂度。这不仅降低了编程的复杂度,而且减少了程序员所需的处理不同的 IT 环境的技能水平。 数据挖掘实验室

对环境进行设置以实现这一点,是数据库管理员 (DBA) 的责任。通过 DB2 Control Center,DBA 定义了关键数据源 - 数据源的类型、所在的服务器、用户映射和通称"别名"的源域到关系方案的映射。在许多情况下,DBA 也将定义允许一个数据库中的数据加入其它数据库的合法环境的简单转换。例如,DBA 可能需要定义男代码为"M",女代码为"F"来替换数据源之一中的"1"和"2"。一旦 DBA 设置了别名、服务器寻址、简单转换,程序员就准备好使用 DB2 Information Integrator了。
数据挖掘实验室

  数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?