信息检索(Information Retrieval, IR)是从数据集中提取出相关文档和信息的过程,而Web 的出现改变了人们进行信息检索的方式,信息检索的对象也从结构化的数据转向半结构、无结构化的数据。随着Web 上数据的不断增加以及人们对查询质量的要求不断提高,传统的Web 检索技术已经很难满足高质量的检索任务。Web 挖掘技术是解决目前数据管理和知识发现等问题的有效方法,对于搜索引擎来说,Web 挖掘技术(主要是内容挖掘和结构挖掘)对第三代搜索引擎的发展起着重要的作用,同时也促进网络信息获取技术向高精度、智能化方向发展。 数据挖掘交友
针对目前Web 信息检索中存在的各种问题,本文对其中的一些关键问题,如智能化Web 信息评价、资源价值标定、分布式图结构索引等Web 信息挖掘的模型和算法方面进行了深入研究,把智能挖掘算法有机的结合到搜索引擎中,提出了若干个有效改进Web 搜索引擎检索质量和效率的Web 挖掘算法并取得了满意的结果。在完成Web挖掘理论研究的基础上,我们实现了一个基于Web 挖掘算法的分布式信息检索平台LUKA,它包括了分布式Web 文档收集、Web 挖掘算法、分布式Web 链接分析算法、半结构化文档概念索引等多个模块,它们有机的组成了一个Web 信息挖掘的原型系统。LUKA 平台在实现技术方面,如分布式资源调度、性能优化等也融入了多项创新性工作。 数据挖掘实验室
本文主要的创新性体现在以下几个方面: 数据挖掘实验室
1. 提出了基于内容和链接分析相结合的Web 挖掘算法,克服了完全基于文本或者链接分析算法的不足,实验证明这种创新算法有效的改善了Web 检索的质量。本文设计实现了解决Web 资源价值标定的时序预测算法,通过对多个数据集的回归分析找到文档重要性的相对趋势。这种资源标定算法对以统计理论为基础的Web 链接挖掘是非常有效的补充和完善;
2. 提出了在分布式环境下进行文档收集、链接交换的DNHA 算法和WCHeX 模型。同时,本文研究了在多节点情况下进行Web 挖掘时保证文档链接完整性的理论及相应实践手段。WCHeX 模型和DNHA 算法解决了分布式文档收集系统中的资源协调和无损链接交换问题,提高并优化了分布式挖掘的性能,对解决分布式Web挖掘中资源交换和维护信息完整性起了非常重要的作用; 数据挖掘实验室
3. 在对半结构化文档分析的基础上,提出了用概念索引的方法进行Web 的全文索引并介绍了SFCI 模型和相关算法。SFCI 是用来对全文索引降维并提高索引质量的概念索引模型,它是建立在结构分析和词频统计基础之上的。SFCI 有效的去除了无效词汇,减少了文本矢量维数,提高了查询匹配度。另外,我们还运用了指纹摘要方法,对概念索引进行“消重”处理,有效的减少了重复的概念索引带来的冗余; 数据挖掘实验室
4. 提出了基于用户检索行为学习和协作过滤方法的智能推荐和查询扩展,并在此基础上实现了LUKA Hits 算法,提高了查询的准确性和相关度;
数据挖掘论坛
5. 设计实现了LUKA- 一个开放式Web 挖掘研究平台,集成了分布式Web 文档收集、概念索引、超链接分析、动态ranking 等多个模块并且提供了开放API。在LUKA 的设计实现的过程中,在系统架构、性能、数据结构等具体实现方面,我们同样提出了许多创新的设计思想并进行了大量的实验工作。这些工作使LUKA成为建立在Web 挖掘理论研究基础上的具有较强学术价值的智能Web 信息检索原型系统。
关键词:Web 挖掘,搜索引擎,分布式Crawler 智能信息检索,超链接分析,相关度 数据挖掘交友
资料全文下载 数据挖掘交友