1 引言
1.1 跨语言信息检索的背景
随着互联网的普及,网上信息资源也越来越丰富。由此给信息检索(IR)带来两个问题,
一是如何在Internet 这样一个开放式的数据库中准确的找到相关信息,二是如何克服语言
障碍(Language Barrier)问题,即实现跨语言的信息检索(CLIR)。
双语之间的跨语言信息检索,代表性的研究有:美国Massachusetts 大学的Lisa
Ballesteros 和W. Bruce Croft 的英语和西班牙语之间的交叉语言信息检索研究,采用的
是双语词典结合译词选择排歧的方法;复旦大学吴立德和黄萱菁的英汉交叉语言信息检索研
究;微软亚洲研究院高建峰等的英汉交叉语言信息检索研究;以及中国科学院软件研究所的
英汉交叉语言信息检索研究; 这些研究工作主要都是基于双语词典和译词选择的方法,不
能很好的解决语言障碍问题。美国Duke 大学的Michael L. Littman 将单语言信息检索中的
隐含语义标引(LSI)扩展到双语信息检索中,形成CL-LSI,试验取得令人满意的结果;但
是由于LSI 自身的物理意义不够明确,所以较难控制词义聚类的效果;此外这个算法的空间
和时间复杂度太大,在目前的硬件条件下很难实际应用。1999 年,Hofmann 提出了统计隐含
语义标引(PLSI)的概念,在理论和算法上都有所突破;目前还极少有这一技术在跨语言信
息检索中应用的相关研究。
1.2 跨语言信息检索的算法分析
· 基于词典的方法。这种方法直接用词典进行全文翻译,类似于机器翻译的技术。这种方
法代价太大,对于大文本集合是不可行的。并且,对于信息检索任务来说,对文本的完
全翻译既是不必要的,也由于缺少上下文约束而使排歧很困难。
· 基于中间语言的方法。中间语言方法的一个主要优点是涉及到了双语之间的语义对应。
这种方法实际上是第二种方法的一个延伸,只是把关键词替换为一种抽象的概念空间。
但是,双语之间往往这种概念并不是很匹配的很好,尤其是对于两种不同风格的语言(如
中文和英文)而言更是效果欠佳。
· 基于多语言对齐语料库的LSI 方法。LSI 是“隐含语义标引”的简称,与上述方法不同
的是,LSI 不再将词和文本之间的关系看成是孤立的,而是用一个相似度值来衡量。首
先构造一个文档— 词的相似度矩阵X,矩阵中的每个元素是相应词在文档中出现的次数
或者频度。根据矩阵分析中的奇异值分解(SVD)算法,得到: X = U T å V 。中间 数据挖掘研究院
的对角阵中的元素,即奇异值。当把较小的奇异值忽略,可以大量的压缩空间,提高效
率,此外还多了一个smoothing 的过程。但是,SVD 算法速度太慢,且不具备物理意义,
所以分类的聚合度无法控制。
1.3 本文的研究工作
基于以上分析,本文的工作主要有两个方面:第一是改进PLSI 算法,求得对分类结果
更好的控制,并且降低空间和时间复杂度,即称为“有指导的统计隐含语义标引”(SPLSI);
第二是把我们的SPLSI 算法应用到跨语言信息检索中,以获得更好且更人性化的查询效果。 数据挖掘研究院

