在W eb 迅猛发展的同时, 我们不能忽视“信息爆炸”的问题, 即信息极大丰富而知识相对匮乏. 据估计, W eb 已经发展成为拥有3 亿页面的分布式信息空间, 而且这个数字仍以每4 至6 个月翻一倍的速度增加[ 1 ].在这些大量、异质的W eb 信息资源中, 蕴含着具有巨大潜在价值的知识. 人们迫切需要能够从W eb 上快速、 有效地发现资源和知识的工具. W eb 上的搜索引擎部分地解决了资源发现问题, 但由于精确度不高等原因, 其效果远不能使人满意. 此外, 搜索引擎的目的在于发现W eb 上的资源, 就W eb 上的知识发现而言, 即使检 索精度再高, 搜索引擎也不能够胜任. 为此, 我们需要开发比信息检索层次更高的新技术. 为了从大量数据的 集合中发现有效、新颖、有用、可理解的模式, 数据库领域采用了数据挖掘技术[ 2 ]. 但是, 数据挖掘的绝大部分 工作所涉及的是结构化数据库, 很少有处理W eb 上的异质、非结构化信息的工作. W eb 挖掘作为数据挖掘 的一个新主题, 引起了人们的极大兴趣. 同时, 它也是一个富于争议的研究方向. 目前, 对于W eb 挖掘的含 义、功能等尚无统一的结论, 需要国内外学者在理论上开展更多的讨论以进行精确地定义. 此外,W eb 挖掘 系统的开发对其研究也将起到很大推进作用. 数据挖掘研究院 在本文中, 我们对W eb 挖掘技术作了系统性的研究. 给出了W eb 挖掘的定义, 讨论了W eb 挖掘与传统 的数据挖掘以及W eb 信息检索之间的关系; 对W eb 挖掘的任务进行了分类, 重点讨论了W eb 文本挖掘和 结构挖掘的功能; 分析了W eb 文本挖掘的方法, 包括文本的特征表示、文本分类和文本聚类. 最后, 简单介绍 了我们设计的一个W eb 文档挖掘系统原型W ebM iner.
资料全文下载 数据挖掘交友
|