|
首页>人工智能>自然语言理解> |
自然语言理解 |
|
Visited times , Welcome to Data Mining Forum & Data Mining Expert |
|
|
语言理解和处理是人工智能早期的和活跃的研究领域之一。由于它的难度很大,至今仍未能达到很高的水平。 本章将首先讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成、机器翻译和语音识别等重要问题;最后举例介绍自然语言理解系统。 8.1 语言及其理解的一般问题 什么是语言和语言理解?自然语言理解与人类的哪些智能有关?自然语言理解研究是如何发展的?理解自然语言的计算机系统是如何组成的以及它们的模型为何?等等。这些问题是我们开始研究自然语言理解时感兴趣的。 8.1.1 语言和语言理解 语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。如果没有各种口语和书面语,如英语、华语、法语和德语等,人类之间的充分和有效交流就难以想象。语言是随着人类社会和人类自身的发展而不断进化的。现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。 要研究自然语言理解,首先必须对自然语言的构成有个基本认识。 语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系,但与其他符号体系又有所区别。 语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。词汇又可分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,"教师"是由"教"和"师"这两个词素所构成的。词素是构成词的最小的有意义的单位。"教"这个词素本身有教育和指导的意义,"师"则包含了"人"的意义。 语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则,如教+师-→教师。一个词又有不同的词形、单数、复数、阴性、阳性等等。这种构造词形的规则称为构形法,如教师+们-→教师们。这里只是在原来的词后面加上一个复数意义的词素,所构成的并不是一个新的词,而是同一词的复数形式。构形法和构词法称为词法。
词法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅笔-→红铅笔。这里"红"是一个修饰铅笔的形容词,它与名词"铅笔"组合成了一个新的名词。造句法则是用词或词组造句的规则,"我是计算机科学系的学生",这是按照汉语造句法构造的句子。图8.1就是上述构造的一个完整的图解。 数据挖掘交友 另一方面,语言是音义结合的,每个词 |
数据挖掘论坛
8.1 语言的构成
|
汇有其语音形式。一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。音素是指一个发音动作所构成的最小的语音单位。 迄今为止,对语言理解尚无统一的和权威的定义。按照考虑问题的角度不同而有不同的解释。从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:(1)回答有关提问;(2)提取材料摘要;(3)不同词语叙述;(4)不同语言翻译。 然而,对自然语言的理解却是一个十分艰难的任务。即使建立一个只能理解片言断语的计算机系统,也是很不容易的。这中间有大量的极为复杂的编码和解码问题。一个能够理解自然语言的计算机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理的过程。自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。具体地说,自然语言理解的困难是由下列3个因素引起的:(1)目标表示的复杂性;(2)映射类型的多样性;(3)源表达中各元素间交互程度的差异性。 自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。语言交流是一种基于知识的通信。
|
|
|
|
|
[数据挖掘专家]
[数据挖掘研究院]
[数据挖掘论坛]
[数据挖掘实验室]
|
上一篇:面向计算机的语言研究(三)
下一篇:什么是自然语言理解?
|
|
|
|