RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎
当前位置 :| 首页>人工智能>信息检索>

中文信息检索引擎中的若干技术

来源: 作者:unkonwn 时间:2004-12-05 点击:
1 引言
随着社会的不断进步,特别是在互联网迅猛发展的今天,人们在不断地接触形形色色的信息,同时也要对这些信息进行过滤,从而提取出对自己真正有用的内容。为了达到这个目的,人们开发出了众多的检索引擎,有针对Web进行搜索的Goolge、百度等,也有针对各行业开发的专题检索系统。目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文检索引擎是必然的产物。中文检索引擎与西文检索引擎在实现的机制和原理上大致雷同,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。
2 中文检索引擎的基本原理
常见的中文检索引擎主要完成两方面的任务:
1.信息的规范化。将搜集来的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库。
    2.信息的检索和表达。以索引好的信息库作为信息基础,利用信息库已被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出。
其中,信息的规范化包括分词和索引(以及资料的搜集和整理)、更新(维护)两部分;信息的检索包括搜索、结果输出两部分。整个信息处理和检索过程如图1所示:

数据挖掘实验室


资料全文下载 数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?