2006末各大行业垂直搜索引擎横向测评

都说今年是搜索引擎年。垂直搜索的概念一度被抄的很火。现在已经到了2006年年末。让我们现在来看看这些传说中的垂直搜索引擎的发展情况。
数据挖掘研究院

垂直搜索的核心技术实际上就是智能爬虫的技术,也就是说如何将定向或者非定向的网页抓取下来并进行分析后得到格式化数据的技术。那么衡量一个垂直搜索引擎的好坏­主要有以下几个标准。
数据挖掘实验室

A.数据的更新频率
 顾名思义,就是爬虫从目标网站上爬取数据的频率。

B.覆盖网站个数
数据挖掘工具

覆盖尽量多的网站,对提供的信息数量将是一个保证。

数据挖掘实验室

C.单站有效数据抓取率
数据挖掘论坛

单个目标网站的有效数据,对数据量的多少有直接的影响。衡量一个爬虫的重要标准之一。

数据挖掘交友

D.信息抽取完整率和准确率

数据挖掘交友

此项指标的重要度不言而喻。信息的准确率和完整率直接关系到整个搜索引擎搜索结果的质量。

经过发展现有垂直搜索爬虫分为2种基本模式。
数据挖掘论坛

一、定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。
数据挖掘交友

优势:

数据挖掘工具

基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。
劣势:
数据挖掘工具

目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大­的人力成本。
数据挖掘工具

二、语义爬虫全网爬取,爬虫根据语义识别,自动进行信息格式化分析,并存储。

优势:
 1、全网非定向抓取目标网站,有效的保证信息数量。
数据挖掘论坛

2、不需要人工参与定制和维护模板,有效的保证了自身的人力和维护成本。
劣势:
数据挖掘工具

相对于第一种模板匹配,根据语义来进行数据抓取,准确率略有下降。

现在大家对该如何衡量一个垂直搜索引擎应该有了一定的了解了吧
下面我们就将通过A.数据的更新频率B.网站覆盖率C.单站有效数据抓取率D.信息抽取完整率和准确率E.产品易用性,5个方面进行横向测评。
数据挖掘实验室

测试环境
IBM T43 512MB内存。
电信 4MB带宽。

数据挖掘实验室

并从各个行业中挑选了几个比较有代表性的垂直搜索引擎,进行分别测评。
数据挖掘交友

 名称:奇酷-折扣频道
 网址:http://zhekou.qikooc.com
 测试总评:
数据挖掘研究院

经过测试发现,除大城市之外,一些中小城市的信息量并不能让人满意。对于信息的准确度来说,做的还是非常不错的。
数据挖掘论坛

笔者还发现在搜索结果中,还提供了商家的行车位置和周边折扣信息。很实用的工具。搜索速度很快。

综合评价:★★★★
数据挖掘交友

 名称:有个地
 网址:http://www.yougedi.com
 测试总评:
数据挖掘论坛

在站内随机抽取全国10城市,先后进行无关键字搜索测试。热点区域搜索和高级搜索测试。

数据挖掘交友

综合测试后发现。一级城市和二级城市的数据信息量,与实际需求可能还存在一些差距。但总体表现不错。虽然偏远城市有信息。但更新频率不是很高。对于信息准确率,­有个地做的不错。几乎没有看到有提取错误的信息。
在产品易用性上,所提供的信息过滤是个亮点。比较方便适用。
 综合评价:★★★★
数据挖掘论坛

 名称:酷讯-招聘频道
 网址:http://zhaopin.kooxoo.com
 测试总评:
数据挖掘论坛

从信息上看数据提取的准确率是相当高的。而且结合家教,社会,校园,经验等多种类型的信息。
数据挖掘实验室

对用户来说是非常方便的。数据的更新频率方面,基本上能保持实时更新,笔者发现大多数数据都来自1分钟~10分钟之前。可以说酷讯这方面做的是很不错的。所提供­的发送简历和求职地图,也是一个非常不错的功能。
 综合评价:★★★★★

数据挖掘研究院

 名称:职友集
 网址:http://www.jobui.com
 测试总评:
数据挖掘研究院

职友集专注于职业搜索。经过几次改版之后。也是有着相当大的进步。
但从数据更新频率上分析与酷讯的招聘频道还是存在一些差距。笔者试用中发现,信息过滤功能要比酷讯的丰富许多。相信可以满足大部分用户的需求。
数据挖掘交友

 综合评价:★★★

 名称:去哪儿
 网址:http://www.qunar.com
 测试总评:

数据挖掘实验室

去哪儿在机票搜索上是比较具有代表性的一家垂直搜索引擎。实时搜索72家网站,可以看出它采用的的是定向抓取。
数据挖掘实验室

搜索结果也是相当精准的。对此笔者的适用还是相当的满意的。同样去哪儿的结果过滤功能也是非常方便的。
数据挖掘论坛

综合评价:★★★★

数据挖掘工具

本篇文章只是对现有的各大垂直搜索引擎做了综合的评比。
下一篇笔者将对垂直搜索引擎的商业模式。及市场进行分析讨论。
欢迎大家继续关注。

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:Google中国“双核”失衡:一山难容二虎?
下一篇:百度搜索大量注水被指技术作弊
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • Mercator: A Scalable, Extensible Web Cra
  • 什么是垂直搜索引擎(之二)
  • Writing a web crawler
  • 互联网搜索的未来
  • 国家版权局版权司副司长许超:关于搜索引擎
  • 百度数分钟内闪电裁员 企业软件事业部遭抛
  • 我对垂直搜索引擎的几点认识
  • Google Patent Filings by the Dozen
  • Manageability - Open Source Web Crawlers
  • 微软卡位第三代搜索技术 认为Google将很快
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 谷歌宣布进军可替代能源 计划投资4.4万亿美
  • 搜索大战成Web 2.0操作系统之争
  • 7月美国搜索市场环比增长2% 雅虎微软成输家
  • 网页面向搜索引擎的搜索引擎优化
  • 史上最具技术创新的10大搜索引擎
  • Google如何预测下一届美国总统
  • 微软1亿美元收购语义搜索引擎Powerset
  • 很黄很暴力:人肉搜索引擎
  • OpenSocial只不过是Google公关骗局
  • 数据之美 百度GOOGLE统计的秘密
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静