Web 文本挖掘技术研究

在W eb 迅猛发展的同时, 我们不能忽视“信息爆炸”的问题, 即信息极大丰富而知识相对匮乏. 据估计,
W eb 已经发展成为拥有3 亿页面的分布式信息空间, 而且这个数字仍以每4 至6 个月翻一倍的速度增加[ 1 ].在这些大量、异质的W eb 信息资源中, 蕴含着具有巨大潜在价值的知识. 人们迫切需要能够从W eb 上快速、
有效地发现资源和知识的工具. W eb 上的搜索引擎部分地解决了资源发现问题, 但由于精确度不高等原因,
其效果远不能使人满意. 此外, 搜索引擎的目的在于发现W eb 上的资源, 就W eb 上的知识发现而言, 即使检
索精度再高, 搜索引擎也不能够胜任. 为此, 我们需要开发比信息检索层次更高的新技术. 为了从大量数据的
集合中发现有效、新颖、有用、可理解的模式, 数据库领域采用了数据挖掘技术[ 2 ]. 但是, 数据挖掘的绝大部分
工作所涉及的是结构化数据库, 很少有处理W eb 上的异质、非结构化信息的工作. W eb 挖掘作为数据挖掘
的一个新主题, 引起了人们的极大兴趣. 同时, 它也是一个富于争议的研究方向. 目前, 对于W eb 挖掘的含
义、功能等尚无统一的结论, 需要国内外学者在理论上开展更多的讨论以进行精确地定义. 此外,W eb 挖掘
系统的开发对其研究也将起到很大推进作用. 数据挖掘研究院
在本文中, 我们对W eb 挖掘技术作了系统性的研究. 给出了W eb 挖掘的定义, 讨论了W eb 挖掘与传统
的数据挖掘以及W eb 信息检索之间的关系; 对W eb 挖掘的任务进行了分类, 重点讨论了W eb 文本挖掘和
结构挖掘的功能; 分析了W eb 文本挖掘的方法, 包括文本的特征表示、文本分类和文本聚类. 最后, 简单介绍
了我们设计的一个W eb 文档挖掘系统原型W ebM iner.

资料全文下载 数据挖掘交友

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:几个著名的web数据挖掘方向的公司介绍
下一篇:World Wide Knowledge Base (Web->KB) project
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • Web数据挖掘的研究现状及发展
  • Web数据挖掘技术综述
  • 百度申请精确广告专利 欲抑制Google步伐
  • Web数据自动采集及其应用研究
  • 信息安全中的数据挖掘
  • 面向Web的数据挖掘
  • Extended Log File Format
  • 基于XML的Web数据挖掘在数字图书馆中的应用
  • XML与Web数据挖掘
  • Web数据挖掘
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • Any Extract (AE) 网站在线编辑
  • 信息安全中的数据挖掘
  • 基于XML的Web数据挖掘在数字图书馆中的应用
  • Web数据挖掘技术综述
  • Web数据挖掘
  • 北大计算机所万小军博士接连在国际一流学术
  • Refereed Papers on WWW2007
  • WWW2007 tutorials
  • WWW2007 workshops
  • Why ’08 Matters for the Web
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静