RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

关于一个比较麻烦的数据抓取问题

来源: 作者: 时间:2008-03-11 点击:

基本情况
公司要搭建一个报表服务器采用 linux+oracle10G
总部业务系统是ibm aix+informix 9.4 c5
分支机构有几十个以后会更多。主要采用sql server2000。(分支机构到总部2MB大约200kb/s的专线带宽)。
每天每个分支机构大约要传输接近一百万条的记录。总部业务系统会传输更多的记录。

目前要完成的工作是如何每天自动从总部业务系统的informix和所有的分支机构的sql server2000上快速的抓取数据到报表服务器。
尝试过自己编写两个数据库连接分别连接多个数据库,向oracle插入数据,可是速度不怎么理想,1千条10个列的数据要6秒左右。
采用过pb的数据管道似乎也不是很理想。

尝试过将使用sql server的bcp导出成文本文件,然后压缩传输到报表服务器,然后采用imp的方式添加进报表服务器。但这样无从得知数据是否导出或者全部导入成功了。

采用过pb的数据管道似乎也不是很理想。 
本身这个不错.

每天每个分支机构大约要传输接近一百万条的记录。总部业务系统会传输更多的记录。 
量太大,估计PB不好处理.

帮顶.

高手帮帮忙。

你可以建个JOB,配置透明网关,通过DBLINK定时从不同的数据库系统上同步数据。

引用 3 楼 vc555 的回复: 数据挖掘实验室
你可以建个JOB,配置透明网关,通过DBLINK定时从不同的数据库系统上同步数据。

透明网关在网络上看见过,不过一般都是介绍从sql server里面抓数据的,不知道速度如何,另外这个透明网关可以支持informix吗?

你先试试吧。我没这个环境,不知道效果怎么样。
透明网关可以支持informix,你可以去查查相关资料:http://www.oracle.com/technology/global/cn/products/gateways/index.html

主要是处理好数据同步问题. 用程序处理,中间设置自己的转换和同步规则. ETL 在数据仓库也是非常好用的.

引用 6 楼 zlp321002 的回复:
主要是处理好数据同步问题. 用程序处理,中间设置自己的转换和同步规则. ETL 在数据仓库也是非常好用的.

能具体谈谈如何做吗?

引用 5 楼 vc555 的回复:
你先试试吧。我没这个环境,不知道效果怎么样。 
透明网关可以支持informix,你可以去查查相关资料:http://www.oracle.com/technology/global/cn/products/gateways/index.html

网页只能显示标题,内容打不开!

用sql server2005的SSIS试试,就是DTS package,里面可以定义处理过程和逻辑,做ETL不错

目前尝试采用的是c/s方式。 数据挖掘实验室
在客户端编写程序读出要传输的记录文件,然后压缩之后上传到总部。然后做解压操作,最后插入oracle数据库。
备注:现在的瓶颈是如何快速插入oracle数据库,如果采用oracle的方式,或者sql load的方式对于导入出错程序中似乎
不好控制,但采用程序插入的效率又太慢。不知道oracle有没有提供类似sql server那样快速插入数据库记录的接口。

目前尝试采用的是c/s方式。 
在客户端编写程序读出要传输的记录文件,然后压缩之后上传到总部。然后做解压操作,最后插入oracle数据库。 
备注:现在的瓶颈是如何快速插入oracle数据库,如果采用oracle的imp.exe方式,或者sql load的方式对于导入出错程序中似乎不好控制,但采用程序插入的效率又太慢。不知道oracle有没有提供类似sql server那样快速插入数据库记录的接口。

Create By Any-Extract(WL-AE)

数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?