Spider 浅见

Google的spider的却很好,掌握了平衡和度。百度的有些霸道,以前我做过统计,百度对我的网站最高日抓取3万个页面,如果我的服务器是以流量
计费的话那么浪费就太大了。

从以前的相关资料看,Google的技术多借助standford的,包括 google的 Sitemap 等都可以从standford的论文中找
到原型。
数据挖掘工具

对于负载平衡这块,我觉得有篇论文的idea不错,就是利用独立管理服务器做分配器,对集群机器中url列表进行散列并进行位相分配,由分配器控制保证
抓取web页面时同一位相时间集群内所有线程只有一个线程访问一个独立的服务器。当然也可以采用分IP区间段的方式使用不同spider服务器抓取不同
的ip地址,当然这样可能效率要低些。
数据挖掘交友

就我的认识来看,spider研究只有模拟真实环境才能得到好的结果,一两台服务器优化的话比较困难,这也就是国内spider相关论文比国外的少很多
的原因。

可能有的地方说的不正确,因为近期对spider没有看多少资料,错误或不当的地方请大家指出。

数据挖掘论坛

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:了解SOA 学习SOA
下一篇:总经理给我的第二个印象
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • SAP FI/CO Reading Repository - [ERP]
  • 预言2008年软件业界十大风云事件
  • 数据挖掘面试记录
  • 垂直搜索引擎技术
  • 数据挖掘经典算法
  • 十大经典算法之C4.5
  • 2008中国信息技术应用学术研讨会征文通知
  • 数据分析过程中的多维技术
  • 数据挖掘研究&开发网站
  • SQL Server 2k5数据挖掘功能介绍
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • Google不知不觉中把微软装进口袋里
  • 预言2008年软件业界十大风云事件
  • 什么是竞争情报
  • Google上市三周年 从华尔街宠儿到网络巨兽
  • 数据挖掘研究&开发网站
  • Oracle Portal 及其门户网站开发概述
  • SAP 全球技术研发者大会 2007 上海
  • 中国电讯,电讯营运商:客户流失的深层次原
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静