0 引言
基于WWW的搜索引擎技术,一直是一个非常重要的研究课题,在此技术领域中的信息采集、分析存储和信息检索形成了完整的搜索引擎,其中信息检索是其最重要的组成部分,具有代表性的文本检索模型主要有布尔模型(Boolean Model)、向量空间模型(Vector Space Model,简称VSM)、概率模型(Probabilistic Model)等,这些模型从不同角度使用不同的方法处理特征加权、类别学习和相似计算等问题,而向量空间模型是最有效的文本表示模型之一。
Gerard Salton在上世纪60年代提出的向量空间模型进行特征表达,用TFIDF(Term-Frequency Inverse-Document-Frequency)将Web页面文档转化为向量形式,再通过相关度的计算,倒排文档进行索引,从而使用户得到一个清晰的检索结果。在成功应用于SMART文本检索系统后(System for the Manipulation and Retrieval of Text),这一系统理论框架到现在仍然是信息检索技术研究的基础。但随着Web页面信息量的增大、Web格式的多样化,这种方法查询的结果往往会与用户真实的需求相差甚远,而且产生的无用信息量会非常大,许多用户希望的个性化查询无法实现(个性化查询就是将一般的查询结果根据用户的个性模型进行二次检索,以适应用户个人的需要),为此人们从许多方面对此技术进行了优化和改进,以期获得更高的查询精度和效率。因此,讨论这一技术的应用具有较为重要的现实意义。
1 基于向量空间的信息检索
一个向量空间是由一组线性无关的基本向量组成,向量维数与向量空间维数一致,并可以通过向量空间进行描述。
1.1 向量空间模型描述:
概念1 文档D(Document):泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)。
概念2 特征项t(Term):指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是
通常所指的检索词,这样一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了检索字的数量。
概念3 特征项权重Wk(Term Weight):指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。这样文档D的向量可以表示为D(wn1,wn2,…,wnm),其中w1,w2,…,wm分别代表文档D特征项t1,t2,…,tn的特征项权重。在WWW索引文件中,每一个向量对应一个URL,当用户检索查询一个文档内容时,如果匹配,则向量D对应的特征项t值为1,否则值为0,如下所示:
|
TermID
|
T1
|
T2
|
…
|
Tn
|
|
|
D1
|
0
|
1
|
…
|
0
|
|
|
D2
|
1
|
1
|
|
1
|
|
|
…
|
…
|
…
|
…
|
…
|
|
|
Dn
|
1
|
0
|
|
1
|
|
θ
|
|
文档D1(w1,w2,…,wm)
|
|
文档D2(w1,w2,…,wm)
|
|
特征项3
|
|
特征项2
|
|
特征项1
|
|
查询qj
|
|
图1 文档VSM及相似度Sim(D1,D2)
|
概念4 相似度S(Similarity):指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量,一般使用内积或夹角θ的余弦来计算,两者夹角越小说明相似度越高,由于查............

