RSS
热门关键字:  数据挖掘  数据仓库  人工智能  搜索引擎  数据挖掘导论

句子相似度计算在FAQ中的应用

来源: 作者:unkonwn 时间:2004-12-05 点击:

引言
    自动问答系统是目前自然语言处理领域一个非常热的问题,它即能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案,而不是一些相关的网页。因此,自动问答系统和传统的依靠关键字匹配的搜索引擎相比,能够更好地满足用户的检索需求,更准确地找出用户所需的答案,具有方便、快捷、高效等特点。在国际上每年一度的文本信息检索(TREC)会议上,自动问答(Question Answering Track)是最受关注的主题之一。
    常问问题库 (FAQ)是很多自动问答系统中的一个组成部分。它把用户常问的问题和相关答案保存起来。这样,对于用户输入的问题,可以首先在常问问题库中查找答案。如果能够找到相应的问题,就可以直接将问题所对应的答案返回给用户,而不需要经过问题理解、信息检索、答案抽取等许多复杂的处理过程。本文将对自动问答系统中FAQ的设计和实现方法做一全面介绍,并着重介绍了其中的句子相似度计算。本文所介绍的句子相似度的计算方法不仅能够用于FAQ的检索,还能够用于自动问答的其它阶段,本文简要地介绍了其在答案查找中的应用。
1 系统概述
系统主要包含三个部分:候选问题集的查找,句子相似度计算,FAQ库的更新。
2 候选问题集的查找 数据挖掘研究院
这一步骤的目的是要从常问问题库(FAQ)中找出若干个候选的问题组成候选问题集,以缩小查找的范围,使后续的相似度计算等较复杂的处理过程都在候选问题集这个相对较小的范围内进行。在本系统中,我们选出FAQ中50%的问句作为候选问题集。设用户输入的问句(简称为目标问句)中共有n个词: 、 、…、 。FAQ库中共有m个问句,第i(1  i  m)个问句含有 个词: 、 、…、 。第i个问句和目标问句之间重叠的词个数记为 ,即 。我们将 值最大的前50%的FAQ问句选出来,组成候选问题集。

资料全文下载

数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?