自然语言理解

语言理解和处理是人工智能早期的和活跃的研究领域之一。由于它的难度很大,至今仍未能达到很高的水平。
  本章将首先讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成、机器翻译和语音识别等重要问题;最后举例介绍自然语言理解系统。 8.1 语言及其理解的一般问题
  什么是语言和语言理解?自然语言理解与人类的哪些智能有关?自然语言理解研究是如何发展的?理解自然语言的计算机系统是如何组成的以及它们的模型为何?等等。这些问题是我们开始研究自然语言理解时感兴趣的。
8.1.1 语言和语言理解
  语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。如果没有各种口语和书面语,如英语、华语、法语和德语等,人类之间的充分和有效交流就难以想象。语言是随着人类社会和人类自身的发展而不断进化的。现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。
  要研究自然语言理解,首先必须对自然语言的构成有个基本认识。
  语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系,但与其他符号体系又有所区别。
  语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。词汇又可分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,"教师"是由"教"和"师"这两个词素所构成的。词素是构成词的最小的有意义的单位。"教"这个词素本身有教育和指导的意义,"师"则包含了"人"的意义。
  语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则,如教+师-→教师。一个词又有不同的词形、单数、复数、阴性、阳性等等。这种构造词形的规则称为构形法,如教师+们-→教师们。这里只是在原来的词后面加上一个复数意义的词素,所构成的并不是一个新的词,而是同一词的复数形式。构形法和构词法称为词法。   
  词法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅笔-→红铅笔。这里"红"是一个修饰铅笔的形容词,它与名词"铅笔"组合成了一个新的名词。造句法则是用词或词组造句的规则,"我是计算机科学系的学生",这是按照汉语造句法构造的句子。图8.1就是上述构造的一个完整的图解。 数据挖掘交友
  另一方面,语言是音义结合的,每个词



数据挖掘论坛

8.1 语言的构成
汇有其语音形式。一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。音素是指一个发音动作所构成的最小的语音单位。
  迄今为止,对语言理解尚无统一的和权威的定义。按照考虑问题的角度不同而有不同的解释。从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:(1)回答有关提问;(2)提取材料摘要;(3)不同词语叙述;(4)不同语言翻译。
  然而,对自然语言的理解却是一个十分艰难的任务。即使建立一个只能理解片言断语的计算机系统,也是很不容易的。这中间有大量的极为复杂的编码和解码问题。一个能够理解自然语言的计算机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理的过程。自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。具体地说,自然语言理解的困难是由下列3个因素引起的:(1)目标表示的复杂性;(2)映射类型的多样性;(3)源表达中各元素间交互程度的差异性。
  自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。语言交流是一种基于知识的通信。
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:面向计算机的语言研究(三)
下一篇:什么是自然语言理解?
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 统计语言模型能做什么?
  • 经典论文Magerman (95) Decision Tree Pars
  • Personal Information Management: PIM 200
  • 自然语言理解技术及其应用探讨(上)
  • Invitation to attend second workshop on
  • 能详细介绍下计算语言学究竟是研究什么
  • 自然语言理解技术及其应用探讨(下)
  • 自然语言理解相关书籍资料推荐
  • 请教关于中文自然语言处理的问题
  • 2006末各大行业垂直搜索引擎横向测评
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • Personal Information Management: PIM 200
  • 能详细介绍下计算语言学究竟是研究什么
  • 信息时代对汉字编码的要求及汉字编码的发展
  • 统计语言模型能做什么?
  • Statistical Language Modeling Toolkit
  • 经典论文Magerman (95) Decision Tree Pars
  • 语义及概念体系在NLP中的作用
  • HNC理论的语言学基础
  • 自然语言理解技术及其应用探讨(上)
  • HNC的发展和未来
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静