随着自然语言处理技术的发展,语义研究,特别是词汇语义研究,成为目前自然语言处理领域的热点和前沿课题。本文介绍一种基于WordNet英语词语相似度计算的实现方法,希望能对英语词语间语义关系进行一些数量化研究。同时也希望能对中文信息处理及双语翻译提供一些方法和借鉴。
词语距离的计算方法大体上可以分成两类:一类是根据某种世界知识(ontology)来计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度。在这方面,许多学者已经基于WordNet做了大量的工作。另一类方法利用大规模的语料进行统计,这种基于统计的方法,主要将上下文信息的概率分布作为词汇语义相似度的参照。第一类方法建立在两个词汇具有一定的语义相关性当且仅当它们在概念间的结构层次网络图中存在一条通路这样的假设的基础上。第二类方法建立在两个词汇具有某种程度的语义相似当且仅当它们出现在相同的上下文中这个假设的基础上。
基于语义词典的方法通常依赖于比较完备的大型语义词典。一般同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中。我们知道,在一棵树形图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量。如Rada R. etc和Lee J.H. etc通过计算在WordNet中词节点之间上下位关系构成的最短路径来计算词语之间的相似度。有些学者考虑的情况更复杂。Resnik,P.根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度。Agirre & Rigau (1995)在利用WordNet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到了其他一些因素。例如:概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越底层,其语义距离较大;概念层次树的区域密度:路径长度相同的两个结点,如果位于概念层次树中高密度区域,其语义距离应大于位于低密度区域的。由于WordNet中概念描述的粗细程度不均,有些领域概念的描述极其详尽,而有些区域的概念描述又比较粗疏,所以加入了概念层次树区域密度对语义距离的影响。基于词典的方法比较直观而且简单有效,但它受人的主观影响比较大有时不能反映客观现实。
基于统计的方法将词汇的上下文信息的概率分布作为词汇语义相似度计算的参照。Lillian Lee利用相关熵,P.Brown etc采用平均互信息来计算词语之间的相似度。基于统计的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。
本文主要介绍一种基于WordNet的词语相似度的实现方法,这主要是一种基于语义词典的方法,我们从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度,。

