11.1.1 语言与语言理解
1、语言的构成
语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语 数据挖掘研究院 语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。
语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。 数据挖掘研究院
语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则。语法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则。造句法则是用词或词组造句的规则。 数据挖掘研究院
图 数据挖掘研究院
(如哑语和旗语)等。语言由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。11.1就是上述构造的一个完整的图解。
图 数据挖掘研究院
另一方面,语言是音义结合的,每个词汇有其语音形式。自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素。 数据挖掘研究院
11.1 语言的构成提问:
构成词的最小的有意义的单位是什么?举例:列举几个由词素构成词的例子,“教师”、“teacher”等。
2、语言的理解 数据挖掘研究院 从微观上讲,语言理解是指从自然语言到机器 数据挖掘研究院
(4) 不同语言翻译。 数据挖掘实验室
对自然语言的理解却是一个十分艰难的任务。自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。 数据挖掘实验室
具体地说,自然语言理解的困难是由下列 数据挖掘研究院
自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。 数据挖掘研究院
语言理解包括下列几个方面的内容: 数据挖掘实验室
(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:3个因素引起的:(1) 能够理解句子的正确词序规则和概念,又能理解不含规则的句子。
(2) 知道词的确切含义、形式、词类及构词法。
(3) 了解词的语义分类以及词的多义性和歧义性。
(4) 指定和不定特性及所有(隶属)特性。
(5) 问题领域的结构知识和时间概念。
(6) 语言的语气信息和韵律表现。
(7) 有关语言表达形式的文学知识。
(8) 论域的背景知识。
思考题: 数据挖掘研究院 11.1.2
随着计算机技术和人工智能总体技术的发展,自然语言理解不断取得进展。
机器翻译是自然语言理解最早的研究领域。由于早期研究中理论和技术的局限,所开发的机译系统的技术水平较低,不能满足实际应用的要求。
到了 数据挖掘研究院
进入 数据挖掘研究院
自然语言是表示知识最为直接的方法。因此,自然语言理解的研究也为专家系统的知识获取提供了新的途径。此外,自然语言理解的研究已促进计算机辅助语言教学 数据挖掘研究院
70年代初期,对语言理解对话系统的研究取得进展。伍兹(Woods)的LUNAR系统、威诺甘德(Winogand)的SHRDLU系统和香克(Schank)的MARGIE系统等是语言理解对话系统的典型实例。80年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。这些系统是自然语言理解研究的重要成果,表明自然语言理解在理论上和应用上取得了突破性进展。(CALI)和计算机语言设计(CLD)等的发展。11.1.3
自然语言理解过程的层次语言的分析和理解过程是一个层次化的过程。现代语言学家把这一过程分为
3个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述3个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。1、语音分析
语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。 数据挖掘研究院
2、词法分析
词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。
3、句法分析
句法分析是对句子和短语的结构进行分析。自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。 数据挖掘研究院
4、语义分析 数据挖掘研究院
语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为一个重要的研究内容。 数据挖掘研究院
思考题
:自然语言理解过程有哪些层次,各层次的功能如何?11.2
句法和语义的自动分析教学内容:
本小节主要讨论句法和语义的自动分析问题。它们是理解自然语言的基础。教学重点: 数据挖掘研究院
句法分析的方法和语义分析的步骤。教学难点: 数据挖掘研究院
转移网络的实现、词汇功能语法(LFG)的理解。教学方法:
课堂教学为主,结合网络课程中的多媒体素材来讲述。教学要求:
重点掌握句法分析的方法和语义分析的步骤,了解转移网络的概念和用LFG语法对句子进行分析的过程。11.2.1 数据挖掘研究院
句法模式匹配和转移网络1、用转移网络表示句法模式
句法模式匹配就是采用句法模式来对语言的句子进行匹配从而进行句法分析。但是自然语言是非常多样化的,因而需要有许多模式。这些模式可用状态转移图来表示,这种用状态转移图来表示的表达方式称之为转移网络( 数据挖掘研究院
TN,transition network)。如图11.2所示,图中,q0,q1,…,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。该网络可用于分析句子也可用于生成句子。
图
11.2 转移网络(TN)用
表
TN来识别句子The little orange ducks swallow flies 的过程如表11.1。11.1 句子识别过程|
词 |
当前状态 数据挖掘研究院 |
弧 数据挖掘研究院 |
新状态 数据挖掘研究院 |
|
the 数据挖掘研究院 |
a |
b |
|
|
little 数据挖掘研究院 |
b 数据挖掘研究院 |
|
b 数据挖掘研究院 |
|
orange |
b |
|
b |
|
ducks |
b |
c 数据挖掘研究院 |
|
|
swallow |
c 数据挖掘研究院 |
e 数据挖掘研究院 |
|
|
flies 数据挖掘实验室 |
e 数据挖掘实验室 |
|
F (识别) |
这里忽略了词法分析,网络如图 数据挖掘研究院
11.3所示
图
11.3 转移网络实例2、网络识别算法
识别过程到达
f状态(终态),所以该句子被成功地识别了。分析结果如图11.4所示。从上述过程中可以看出,这个句子还可以在网络中走其他弧,如词ducks也可以走弧
图
11.4 TN分析树(1) 并行算法
(2) 回溯算法
思考题: 数据挖掘研究院 S
NP
NP
NP 数据挖掘实验室
VP
VP
VP
VP
PP
→NP VP→Adjective Noun→Determiner Noun PP→Determiner Noun→Verb Adverb NP→Verb→Verb Adverb→Verb PP→Proposition NP
11.2.2 数据挖掘实验室
扩充转移网络1、扩充转移网络的构成
扩充转移网络 数据挖掘实验室
ATN是由伍兹(Woods)在1970年提出的。ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。这种条件和操作采用寄存器的方法来实现,在分析树的各个成分结构上都放上寄存器,用来存放句法功能和句法特征,条件和操作将对它们不断地进行访问和设置。ATN的每个寄存器由两部分构成:句法特征寄存器和句法功能寄存器。在特征寄存器中,每一维特征都有一个特征名和一组特征值,以及一个缺省值来表示。功能寄存器则反映了句法成分之间的关系和功能。11.5所示是一个简单的名词短语(NP)的扩充转移网络,网络中弧上的条件和操作如下:
图 数据挖掘研究院
11.5 名词短语(NP)的扩充转移网络2、扩充转移网络示例
该网络主要是用来检查
NP中的数的一致值问题。图11.6是一个句子的ATN,主要用来识别主、被动态的句子,从中可以看到功能寄存器的应用。图
网络描述如下: 数据挖掘实验室
11.6 句子的扩充转移网络 S-1:
A:Subject←?/FONT>*.: 当然作为一完整的 数据挖掘实验室 11.2.3 数据挖掘研究院 1、词汇功能语法的结构
:Main-Verb←?/FONT>*.:
:Main-Verb.Type=Be,Do,Have or Modal:Auxs<=Main-Verb,Main-Verb←?/FONT>*.:
:*.Form=Past-part and Main-Verb.Type=Be:Voice←?/FONT>Passive,Auxs<=Main-Verb,←?/FONT>*.Direct-Obj←?/FONT>Subject,←?/FONT>dummy-NP.:Direct-Obj←?/FONT>*.:
:Modifiers<=*.:
:Voice=Passive and Subject=dummy-NP and*.Prep=“by”.:Subject←?/FONT>*.Prep-Object.:
No Conditions, actions or initializations.
词汇功能语法(LFG)是由卡普兰和布鲁斯南(Bresnan)在1982年提出的,它是一种功能语法,但是更加强调词汇的作用。LFG用一种结构来表达特征、功能、词汇和成分的顺序。
LFG 数据挖掘研究院 表 数据挖掘研究院
|
2、词汇功能语法对句子的分析过程
用LFG语法对句子进行分析的过程如下:
(1) 数据挖掘研究院 (2) 数据挖掘实验室 (3) 数据挖掘实验室 11.2.4 数据挖掘研究院
建立句法结构只是语言理解模型中的一个步骤,进一步则要求获得语言所表达的意义。 数据挖掘研究院
第一步是要确定每个词在句子中所表达的词义,这涉及到词义和句法结构上的歧义问题;
第二步是要根据已有的背景知识来确定语义。
逻辑形式表达是一种框架式的结构,它表达一个特定形式的事例及其一系列附加的事实,如“Jack
kissed Jill”,可以用如下逻辑形式来表达: 数据挖掘研究院
(PAST S1 KISS-ACTION 数据挖掘研究院
[AGENT(NAME j1 PERSON“Jack”)][THEM ENAME(NAME j2 PERSON“Jill”)])它表达了一个过去的事例
S1。PAST是一个操作符,表示结构的类型是过去的,S1是事例的名,KISS-ACTION是事例的形式,AGENT和THEME是对象的描述,有施事和主位。举例; 数据挖掘实验室
已知“张经理开车去了商店”,要回答“张经理是否坐进汽车?”
11.3 数据挖掘研究院
句子的自动理解教学内容: 数据挖掘研究院
本小节主要讨论简单句和复合句的理解。教学重点:
简单句的理解方法。教学难点:
复合句的理解方法。教学方法: 数据挖掘研究院
课堂教学为主,结合网络课程中的多媒体素材来讲述。教学要求: 数据挖掘研究院
重点掌握简单句的理解方法,了解复合句的理解方法。11.3.1 数据挖掘实验室
简单句的理解方法1、简单句理解的内容 数据挖掘研究院
由于简单句是可以独立存在的,因而为了理解一个简单句,即建立起一个和该简单句相对应的机内表达,需要做以下两方面的工作: 数据挖掘研究院
(1) 数据挖掘研究院
理解语句中的每一个词。(2)
常常将这项工作分成以下
(a) 数据挖掘研究院
(b) 数据挖掘研究院
(c)
以这些词为基础组成一个可以表达整个语句意义的结构。3个部分来进行: 句法分析将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。语义分析各种意义被赋于由句法分析程序所建立的结构,即在句法结构和任务领域内对象之间进行映射变换。语用分析为确定真正含义,对表达的结构重新加以解释。思考:
考虑下列句子The old man 数据挖掘实验室
′s glasses were filled with sherry.选择单词 数据挖掘研究院
glasses合适的意思需要什么信息? 什么信息意味着不合适的意思?2、简单句理解方法 数据挖掘实验室
(1) 关键字匹配法 数据挖掘研究院
关键字匹配法是最简单的自然语言理解方法。该方法简单归纳起来为:在程序中规定匹配和动作两种类型的样本。然后建立一种由匹配样本到动作样本的映射。当输入语句与匹配样本相匹配时,就去执行相应样本所规定的动作,这样从外表看来似乎机器真正实现了能理解用户问话的目的。 数据挖掘研究院
(2) 句法分析树法 数据挖掘研究院
关于文法的形式,在许多自然语言处理程序中提出过很多各不相同的定义,作为一个例子,下面我们给出一种文法的形式化定义。
文法G在其形式上为如下的四元组:
G=(V, 数据挖掘研究院 其中,
α→β 数据挖掘研究院
式中,α∈V
图 数据挖掘研究院
V为有穷非空集,称作总词汇表;Σ为V的一个非空子集,称作终结字母表,而N=V-Σ称作非终结字母表;P为如下形式的有穷产生式集:*NV*,β∈V*,*表示它前面的字符可以重复出现任意次;S为非终结字母表的一个元素,称为起始符。11.7是使用该文法对语句:Joe hit the ball.
进行句法分析而建立的文法分析树。 数据挖掘研究院
示例:
一个英语子集的简单文法:S 数据挖掘研究院
NP
NP
ADJS 数据挖掘研究院
VP 数据挖掘实验室
VP 数据挖掘研究院
N
ADJ
V
→NP VP→the NP1→NP1→∈|ADJ ADJS→V→V NP→Joe|boy|ball→little|dig→hit|ran其中,大写的是非终结符,而小写的是终结符,∈表示空字符串。 数据挖掘研究院
图 数据挖掘实验室
11.7 文法分析树示例
(3) 语义分析
只是根据词性信息来分析一个语句文法结构,是不能保证其正确性的,这是因为有些句子的文法结构,需要借助于词义信息来确定,也就是要进行语义分析。 数据挖掘研究院
进行语义分析的一种简单方法是使用语义文法。所谓语义文法,是在传统的短语结构文法的基础上,将N(名词)、V(动词)等语法类别的概念,用所讨论领域的专门类别来代替。
思考: 数据挖掘研究院 (1) David wanted to go to the movie with Linda.
(2) David wanted to go to the movie with Georgy William.
(3) He heard the story listening to the radio.
(4) He heard the boys listening to the radio. 数据挖掘实验室
11.3.2 数据挖掘研究院
复合句的理解方法1、复合句理解的复杂性
正像上述介绍的,简单句的理解不涉及句与句之间的关系,它的理解过程是首先赋单词以意义,然后再给整个语句赋以一种结构。而一组语句的理解,无论它是一个文章选段还是一段对话节录,均要

