智能信息检索中的Web 挖掘研究

信息检索(Information Retrieval, IR)是从数据集中提取出相关文档和信息的过程,而Web 的出现改变了人们进行信息检索的方式,信息检索的对象也从结构化的数据转向半结构、无结构化的数据。随着Web 上数据的不断增加以及人们对查询质量的要求不断提高,传统的Web 检索技术已经很难满足高质量的检索任务。Web 挖掘技术是解决目前数据管理和知识发现等问题的有效方法,对于搜索引擎来说,Web 挖掘技术(主要是内容挖掘和结构挖掘)对第三代搜索引擎的发展起着重要的作用,同时也促进网络信息获取技术向高精度、智能化方向发展。 数据挖掘交友

针对目前Web 信息检索中存在的各种问题,本文对其中的一些关键问题,如智能化Web 信息评价、资源价值标定、分布式图结构索引等Web 信息挖掘的模型和算法方面进行了深入研究,把智能挖掘算法有机的结合到搜索引擎中,提出了若干个有效改进Web 搜索引擎检索质量和效率的Web 挖掘算法并取得了满意的结果。在完成Web挖掘理论研究的基础上,我们实现了一个基于Web 挖掘算法的分布式信息检索平台LUKA,它包括了分布式Web 文档收集、Web 挖掘算法、分布式Web 链接分析算法、半结构化文档概念索引等多个模块,它们有机的组成了一个Web 信息挖掘的原型系统。LUKA 平台在实现技术方面,如分布式资源调度、性能优化等也融入了多项创新性工作。 数据挖掘实验室

本文主要的创新性体现在以下几个方面: 数据挖掘实验室

1. 提出了基于内容和链接分析相结合的Web 挖掘算法,克服了完全基于文本或者链接分析算法的不足,实验证明这种创新算法有效的改善了Web 检索的质量。本文设计实现了解决Web 资源价值标定的时序预测算法,通过对多个数据集的回归分析找到文档重要性的相对趋势。这种资源标定算法对以统计理论为基础的Web 链接挖掘是非常有效的补充和完善;

2. 提出了在分布式环境下进行文档收集、链接交换的DNHA 算法和WCHeX 模型。同时,本文研究了在多节点情况下进行Web 挖掘时保证文档链接完整性的理论及相应实践手段。WCHeX 模型和DNHA 算法解决了分布式文档收集系统中的资源协调和无损链接交换问题,提高并优化了分布式挖掘的性能,对解决分布式Web挖掘中资源交换和维护信息完整性起了非常重要的作用; 数据挖掘实验室

3. 在对半结构化文档分析的基础上,提出了用概念索引的方法进行Web 的全文索引并介绍了SFCI 模型和相关算法。SFCI 是用来对全文索引降维并提高索引质量的概念索引模型,它是建立在结构分析和词频统计基础之上的。SFCI 有效的去除了无效词汇,减少了文本矢量维数,提高了查询匹配度。另外,我们还运用了指纹摘要方法,对概念索引进行“消重”处理,有效的减少了重复的概念索引带来的冗余; 数据挖掘实验室

4. 提出了基于用户检索行为学习和协作过滤方法的智能推荐和查询扩展,并在此基础上实现了LUKA Hits 算法,提高了查询的准确性和相关度;

数据挖掘论坛

5. 设计实现了LUKA- 一个开放式Web 挖掘研究平台,集成了分布式Web 文档收集、概念索引、超链接分析、动态ranking 等多个模块并且提供了开放API。在LUKA 的设计实现的过程中,在系统架构、性能、数据结构等具体实现方面,我们同样提出了许多创新的设计思想并进行了大量的实验工作。这些工作使LUKA成为建立在Web 挖掘理论研究基础上的具有较强学术价值的智能Web 信息检索原型系统。

关键词:Web 挖掘,搜索引擎,分布式Crawler 智能信息检索,超链接分析,相关度 数据挖掘交友

资料全文下载 数据挖掘交友

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:数据挖掘在居民地和道路要素中的应用探讨
下一篇:入侵检测中的数据挖掘方法研究-博士研究生学位论文
最新评论共有 1 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 清华大学毕业设计论文
  • 数据挖掘中关联规则的研究与应用
  • 文本挖掘抢占商业智能掘金制高点
  • 基于元数据的Web 信息检索技术研究
  • Rough set 理论及其在数据挖掘中的应用:硕
  • 智能信息检索中的Web 挖掘研究
  • 入侵检测中的数据挖掘方法研究-博士研究生
  • 基于Web日志挖掘技术的智能Web站点研究
  • 聚类/分类理论研究及其在文本挖掘中的应用
  • 基于概念格和粗糙集的数据挖掘
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 深圳天音通信公司购销存系统设计与部分实现
  • 清华大学毕业设计论文
  • 基于记忆演化的多Agent系统强化学习
  • 基于元数据的Web 信息检索技术研究
  • 车门附件布置知识库管理系统的研究与开发-
  • 入侵检测中的数据挖掘方法研究-博士研究生
  • 智能信息检索中的Web 挖掘研究
  • 数据挖掘在居民地和道路要素中的应用探讨
  • 数据挖掘中关联规则的研究与应用
  • 基于多Agent 系统的卫星故障诊断技术研究
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静