RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

一种提高中文搜索引擎检索质量的HTML解析方法

来源: 作者:unkonwn 时间:2004-11-26 点击:

网络资源的猛增使搜索引擎越来越重要,据CNNIC(中国互联网络信息中心)2002年1 月的调查数据显示,在网民最常使用的网络服务中,使用搜索引擎的网民占62.7%,仅低于电 子邮箱而位居第二。但在中文搜索引擎的查询结果里仍然普遍存在着大量的无关项和不含具 体信息的间接项,使用户不得不浪费大量的时间在结果列表中寻找相关信息。一般的搜索引擎均采用关键字的方法索引和检索网页,在这种框架下,所有出现在网页上的字被用作索引 项。但实际的中文网页里常常含有大量与页面主题无关的文字,造成了检索结果不准确、不相 关的问题。例如,图1和图2是以“桂林三宝”作为关键字进行检索时得到的结果。图1页面的主要内容是一篇介绍吉林的文章,其中 提到“....吉林雾凇,与桂林山水、云南石 林、长江三峡并誉为中国四大自然奇观”, 又恰好在左栏的导航目录里有“吉林三 宝”的条目,使得这个页面被错误的当成 了相关项;图"的主要内容则是介绍白族 的“三道茶”,但因为在左侧的超链接目录 里出现了“桂林三宝”,真正提供具体信息 的应该是它指向的页面,而那个页面一般 也会被检索到,因此图"是一个多余的间 接项。

数据挖掘研究院

如果搜索引擎在预处理阶段,把一个 页面上不同主题、不同作用的文字混在一起,那么类似图!的无关项在之后的检索和处理过程 中是根本无法去除的。商用搜索引擎普遍采用站点聚类技术,把出现在同一个站点上的结果 图" 间接项的例子 项合并,虽然可以隐藏大部分的间接项, 但会耗费用户的查询时间。因此,我们 提出在预处理阶段过滤掉一些和主题无 关的文字,从而消除前面所提到的无关 项和间接项。

当前,商用搜索引擎所采用的预处 理方法都很简单,几乎保留了HTML文 件中所有的信息,这样固然可以保证查 全率,但是依据网络资源冗余的实际特 点,提高查准率对用户来说更具意义。 在研究领域里,人们提出基于HTML标 记结构的规律对特定站点进行信息抽 取["],但是这些方法的规律特殊,扩展性较差,不能满足搜索引擎要处理多种多样的网站的实 际要求;’Carchiolo等人[3]则引入了“语义块”的概念来对网页内容分层分类,但他们没有给出 自动探测“语义块”的方法;FOM则是一个具体详尽的网页模型,但对于要求高效率的预处 理来说它太复杂,而且大量的中文网页使用了透明的表格来布局页面,而FOM很难按语义区 分表格的作用。另一方面,人们认为HTML标记含有对检索有帮助的结构信息,但是目前的 研究只是考察了一些HTML标记强调了重要的信息[3],例如,〈h1〉,〈b〉等,而很少有人研究利 用#$%&标记排除无用或者有害的信息;对于超链接文字的研究也是集中在它提供了对所指 页面的检索有用的信息[5,6],而很少有论文研究超链接文字对所在页面的影响。

数据挖掘研究院

资料全文下载

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?