十八世纪的法国,在启蒙运动精神的鼓舞下,一些人士提出了一项雄心勃勃、近乎幻想的规划:将全世界所有的知识汇集在一起,做成一本反映人类全部文明的百科全书。然而两个世纪之后,当Internet看来就要将这个乌托邦式的梦想付诸实现的时候,人们又发现了一个更加严峻的问题,那就是:我们如何来使用这个知识宝库呢?我们如何来翻阅这本厚厚的百科全书呢?
1.1 我们所期望的信息服务
让Internet为人类服务,是未来几年的真正挑战。电子邮件甚至是电话会议都已普及,然而这些应用并没有触及Internet的核心问题:Internet的空间是原始信息和分析结果的巨大储存库,Internet是一个庞大而又充满着混沌的网络。一方面,它为信息发布者提供了极大的言论自由:你可以非常容易地向整个世界发布你的思想、高论抑或呓语,以你最钟爱的方式---文本、声音或者图象;然而另一方面,这种快速、无序的增长对于信息的使用者来说却意味着混乱---很多信息变得稀奇古怪、突然消失或者杂乱无章。那么,我们希望这本没有主编的,因而有些杂乱无章的百科全书能够提供哪些服务呢?也许我们可以从以下几个方面来概括:
● 准确而全面的“人找信息”
人们一直梦想有这么一种手段:只要你说出想查询什么,马上就能得到所有符合要求的信息,并且不被那些不相干的信息所打扰。这实际上隐含了对信息检索的两个要求:查全率和查准率。
查准率是检出文档之中真正符合检索意图的文档所占的比率,即:
中国科学院计算技术研究所学位论文
正确文档数
查准率 =
检出文档数
查全率是所有符合检索意图的文档之中被检出的文档所占的比率,即:
正确文档数
查全率 =
应有文档数
查全率和查准率反映了检索质量的两个不同方面,二者必须综合考虑,不可偏废。如果只考虑查准率,那么可以只检出1篇最有把握的文档,赌正了查全率就是100%,但是这样的话,符合要求的文档被检出的数目太少,不能满足全面了解相关信息内容的要求;同样地,如果只追求查全率,那么把所有的信息都端出来,查全率固然可以达到100%,但是真正有用的信息就都淹没在大量的无用信息之中了,无法满足快速地、有针对性地了解信息内容的需求。因此,任何信息检索系统都要在查全率和查准率之间进行权衡。
在网络时代说起信息检索,大家都会想到搜索引擎。现在的确有很多声名显赫的搜索引擎,比如Yahoo!、Excite等,但是如果你因此而以为问题已经解决的话,那就大错特错了。实际使用过搜索引擎的人想必都有这种体会:想查的东西查不着,不相关的东西倒是很多。构造更好的信息检索系统仍然是人们努力的目标。
● 主动的“信息找人” 数据挖掘研究院
人们还有一个梦想,希望能够象订阅报纸一样订阅Internet上的信息。只需事前在某个地方登记对哪些信息感兴趣,或者干脆连这一步都省略掉,由某种机制从用户的浏览历史行为中学习出用户的兴趣,然后只要有人在网络上发布了相关信息,就能立刻推送到用户手中,也就是个性化、主动化的“信息找人、按需服务”。
既然是“信息找人”,那么什么信息找什么人就是关键。每个用户都有自己特定的信息需求,设法获得这些信息需求,进而使用这些信息需求.............

