然而,在这里“关键字”仅仅是出现在网页中的符号而已,它所指代的语义并没有被使用。页面分析所依据的也是存在于页面之间的链接关系,它不能表示这些页面本身包含什么信息。这就决定了搜索引擎还不能还好地处理页面信息的语义,因此,目前搜索引擎出现了一系列的困难。根据中国互联网网络信息中心(CNNIC)的报告称,用户认为在互联网上查询信息时遇到的最大问题是重复信息太多(44.6%)、信息太陈旧更新缓慢(27.5%)、得到的有用信息太少(10.7%)、信息查找不方便(10.2%)。这些问题中的第一项和第三项的主要根源都是搜索引擎不能理解存在于网页中的信息的语义。为了解决这些问题,搜索引擎必须能够表达和处理语义信息。所以,我们相信,下一代搜索引擎的数据模型必须是语义数据模型。
我们认为语义网(Semantic Web)是这种语义模型的最好的选择。语义网采用XML+RDF+Ontology三个层次描述信息资源,构成了计算机理解内容的基础。关于语义网我们已经在2006年第4期本刊中给出了介绍,这里就不详细介绍了。
围绕着建立语义网,将会发展一系列的技术,将是下一代搜索引擎所必须的。比如,自动标注技术,信息抽取技术等等。因此,从这种意义上讲,下一代搜索引擎将是智能化的。 数据挖掘实验室
第二、从用户信息体验的角度来看搜索引擎技术的发展趋势。
用户对网络的信息体验是从分类检索体验开始的,第一代搜索引擎呈现给用户的是“千人一面”的分类体系和网页内容。人们在经过了初始短暂的兴奋后,很快就对这样的信息访问方式不满意了。第二代的搜索引擎是以关键字作为表达查询的主要手段的,以按相关度大小排列的文献列表为展示方式。为了克服千人一面的不足,人们还引进了一些个性化的技术,包括对查询输入的修正,查询结果的聚类等。但是,到目前为止,查询输入的主要方式还是关键字,查询输出的主要也还是文本列表。笔者以为如何为用户的学习和工作营造一个个性化的信息空间,是未来搜索引擎应该追求的方向,这里包括如何表达信息需求,如何展示/浏览搜索结构,如何对个性化的信息需求建立模型等等。从这种意义上讲,下一代搜索引擎将是个性化的。
第三、从互联网资源获取与更新策略的角度来看搜索引擎技术的发展趋势。
互联网搜索首先需要的是及时地获得新的信息,这里涉及资源抓取和更新策略问题。这方面笔者没有深入研究,难以进行推测。一种观点认为,第一代搜索引擎是集中式的,第二代是分布协同式的,而第三代将是“社会性”的,比如P2P这样的模式。

