搜索的庖丁之刃(上)

未来的搜索如何弥补PageRank未了的缺憾?当搜索从页面级晋升为区块级,无疑将带来一场效率的革命。
 

  作者:原《互联网周刊》记者李洋

数据挖掘交友

 

  一个网页就犹如一头牛。它有头、有尾,可以划分为不同的信息区域。当你浏览一个页面时,往往会将目光锁定在最重要的区域中,而不是先浏览导航、广告、版权信息等信息块。沿着这个思路,就可以进一步提升搜索的精准度。 数据挖掘研究院

 

数据挖掘研究院

  区块级搜索

  数据挖掘论坛

  在上世纪90年代中期,Google的创始人拉里·佩奇(Larry Page)发明了一种新的网页排名算法。简而言之,这一算法的核心便是“链接”:当越多的页面指向一个页面时,后者的重要性就越强;该重要性还取决于指向此页面的源页面的重要程度。 数据挖掘论坛

 

数据挖掘工具

  这个后来以佩奇的姓氏命名的算法PageRank,为Google打下江山起到了决定性的作用。但是,随着互联网的发展,这一算法的缺点也不断体现。由于它是基于页面级的搜索,因此无法判断一条链接在一个页面中的权重。比如,一条由页面中的重要内容引出的链接,与一条由广告内容引出的链接,其重要性应该是有很大差别的。而PageRank对此种情况是等同对待的。

 

  也就是说,如果我们能够将页面分块,并标识出每块的重要程度,便使得页面级搜索上升到了区块级搜索的高度,那么搜索的准确性和精度也必然会随之提高。

数据挖掘交友

数据挖掘论坛

(主任研究员文继荣博士)

数据挖掘研究院

  数据挖掘实验室

  目前,微软亚洲研究院的文继荣研究员找到了这把庖丁之刃。据文研究员称,新技术将比现行的PageRank算法下实现的搜索精度提高25%。当然,目前这一惊人的结论是在实验室内产生的,实际数据还有待进一步应用及测试。

数据挖掘论坛

 

  其实,在计算机学术界,很早就有人想到了给页面分块的做法。他们主要是对HTML的语法进行分析,试图从代码解析的角度解构一个网页。但这显然是行不通的,因为HTML中的语法标签并无任何语义作用,其代码往往十分杂乱,且与不同的设计者有关。

数据挖掘交友

 

数据挖掘工具

  网页是多样化和异构的,但人类却可以一眼便将一个网页划分为几块。于是,文继荣和他的两个学生蔡登和俞诗鹏,想到了以视觉的角度来分割整个页面。在浏览器显示出一个页面之前,要用内部的渲染引擎对其进行加工,并获取某个标签的坐标位置、字体大小、颜色等信息。文的算法在应用了这些视觉信息元素后,就可以决定在什么地方来做分块,对网页进行自动地分割。 数据挖掘论坛

  数据挖掘实验室

  但仅仅分割显然是不够的,还要得知一个区块的重要程度。微软的研究员们采用了机器学习的方法来建立一个模型。首先通过人为的训练,“告诉”计算机哪里是一个页面中最重要的部分,而这些通常是有迹可寻的,比如在页面中的位置、大的图片、粗字体等等。经过大量的训练之后,计算机便形成了一个公式,可以将页面自动划分为红绿蓝三个级别的区块(重要性依次减弱)。精准度大致在86%左右,基本和人的水平相当。也就是说,如果一个页面设计得十分糟糕,既杂乱又分不清主次,那么无论是人或机器,都无法对区块的重要性做出判断。 数据挖掘研究院

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:微软地图搜索的援震行动
下一篇:搜索的庖丁之刃(下)
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • Mercator: A Scalable, Extensible Web Cra
  • 什么是垂直搜索引擎(之二)
  • Writing a web crawler
  • 互联网搜索的未来
  • 国家版权局版权司副司长许超:关于搜索引擎
  • 百度数分钟内闪电裁员 企业软件事业部遭抛
  • 我对垂直搜索引擎的几点认识
  • Google Patent Filings by the Dozen
  • Manageability - Open Source Web Crawlers
  • 微软卡位第三代搜索技术 认为Google将很快
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 谷歌宣布进军可替代能源 计划投资4.4万亿美
  • 搜索大战成Web 2.0操作系统之争
  • 7月美国搜索市场环比增长2% 雅虎微软成输家
  • 网页面向搜索引擎的搜索引擎优化
  • 史上最具技术创新的10大搜索引擎
  • Google如何预测下一届美国总统
  • 微软1亿美元收购语义搜索引擎Powerset
  • 很黄很暴力:人肉搜索引擎
  • OpenSocial只不过是Google公关骗局
  • 数据之美 百度GOOGLE统计的秘密
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静