1 引言
语言模型是对自然语言的一种描述,构造语言模型是研究计算语言学、自然语言理解的核心内容之一, 好的语言模型将有助于自然语言相关内容处理的准确性。传统的基于规则和基于统计的语言模型能很好处理各种语言关系, 简化了对语言的描述,在语音处理、文字识别、信息检索、机器翻译等领域,都取得了较好的效果。之后有研究者相继提出了统计与规则并举的方法[4,5]、基于主题[2]和基于记忆[3]的两种自适应语言模型[1]。但在应用的过程中,上述模型本身也暴露出了一些问题,其中比较突出的是它不能很好地表达和处理语义层面信息,不能很好地适应主题多变的应用环境。
本体作为一种能在语义和知识层面上描述信息系统的概念模型建模工具,自90年代初被引入人工智能领域[6]后,与自然语言处理的研究有机结合在一起,在知识工程、数字图书馆、信息检索和Web上异构信息的处理、语义Web等许多领域得到了广泛的应用。从人类对知识的积累和学习过程看,人们对事物的认知与处理是理解其意义后才做出判断,而这种理解恰恰依赖于大脑中积累的已有知识,或者是对现象本身的长期经验总结及归纳。理想情况下,处理自然语言应该确立在计算机能够真正"理解语言"的基础上去实现,如果计算机可以像人类一样"不断学习和积累知识",处理自然语言问题时,计算机的"理解能力"及"准确性判断"将会极大提高。由于本体能够使人或机器间的交流建立在对所交流领域共识的基础上[7],因此比较适合我们构造这样的知识表示。 数据挖掘研究院
本文结合本体的特性,提出一种基于本体的语言模型,该模型与语言无关,可以完成跨语言信息处理。该模型首先通过一种类框架结构,构建特征信息的本体表示,然后采用特定的机器学习策略[8],通过语料学习,获得特征信息在语料中的语义、语用、句法等方面的用法,并抽象表示成特征信息的本体知识。处理实际文档时,将基于特征信息的本体表示,抽取并归并意义相近的特征信息,得到特征信息在实际文档中的用法,并与已经获取的本体知识做比较。本文在中文环境下,基于上述本体模型,从文本相似度计算、信息检索、特定信息识别等几个方面做了几组实验,初步的实验结果表明,在整体的准确率和召回率方面均有所提高。
本文余下的内容组织如下:第2部分介绍本体的概念以及特征信息的本体表示;第3部分详细描述本体知识的获取策略和过程;第4部分给出初步的实验结果及分析;第5部分为结论及下一步的工作。
基于本体的语言模型研究
来源:
作者:unkonwn
时间:2004-12-05
点击:
最新评论共有 0 位网友发表了评论
查看所有评论
发表评论
热点关注

