图2 Google的体系结构
数据挖掘实验室
4 网络信息挖掘的应用前景
在国外,数据挖掘技术已经广泛地应用于金融业、零售业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,而它在网络中的应用也正在成为一个热点。网络信息挖掘的应用涉及到电子商务、网站设计和搜索引擎服务等众多方面。下面主要从这三个方面介绍其应用。
4.1 电子商务
运用网络用法挖掘技术能够从服务器以及浏览器端的日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。例如通过评价用户对某一信息资源浏览所花的时间,可以判断出用户对资源兴趣如何;对日志文件所收集到的域名数据,根据国家或类型(.com,.edu,.gov)进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。这项技术已经有效地运用在电子商务之中。
4.2 网站设计
通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性(hierarchy)组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个人信息的定制服务。目前PDA(Personal Digital Assistant个人数字助理)以及Cellular phone(移动电话)都已经可以直接接受网络信息服务。这些设备的显示界面较小,因而网站面向这些设备的设计就应当突出精品化、个性化的特点,而这类特色推送服务就必须采用网络信息挖掘技术。 数据挖掘工具
4.3 搜索引擎
网络信息挖掘技术在搜索引擎上的应用我们在上一节中已经作了一些介绍。Google搜索的最大特色就体现在它所采用的对网页Links信息的挖掘技术上。而实际上,网络信息挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;同时,通过用户所使用的提问式(query)的历史记录的分析,可以有效地进行提问扩展(query expansion),提高用户的检索效果(查全率,precision;查准率,recall);另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
上面仅仅列举了网络信息挖掘技术在这三个方面的应用。这项技术的应用正变得越来越广泛;用户对高品质、个性化的信息的需求也将进一步推动着学术界与实业界的研究开发工作。
数据挖掘论坛
参考文献 数据挖掘工具
1 胡侃、夏绍玮.基于大型数据仓库的数据采掘,研究综述.软件学报,1998,9(1)
2 邹涛等.基于WWW的文本信息挖掘.情报学报,1999,18(4)
3 曾民族.“数象信息科学”和当前研究课题.情报理论与实践,1998,21(2)
4 马费成,陈悦.面向高速信息网络的信息资源管理(一)从技术角度的分析.中国图书馆学报,1998,24(113)
5 Raymond Kosala and hendrik Blockeel.Web Mining Research:A Survey.ACM SIGKDD,July 2000.
6 S.Brin and L. Page. The anatomy of a large-scale hypertestual Web search engine. In Seventh International World Wide Web Conference, Brisbane, Australia, 1998 数据挖掘工具