我国是继美国、苏联、英国之后,世界上第四个开展机器翻译研究工作的国家。当今在机器翻译方面居于先进水平的日本,是在1958年才开始进行机器翻译的,起步比我国为晚。
与国外机器翻译的发展情况相比较,我国机器翻译除了有草创期、复苏期和繁荣期之外,由于文化大革命的影响,还有一个非常特别的时期——停滞期,而且,由于我国机器翻译在理论上和方法上以及设备上的底子都很薄,我国机器翻译的每一个时期又都比国外机器翻译的同样时期稍微滞后。这是我国机器翻译发展的特点。
数据挖掘交友
(1)草创期(1956-1966年)
在这个时期,我国学者对机器翻译进行了初步的探索和试验。1956年,国家便把机器翻译研究列入了我国科学工作的发展规划,成为其中的一个课题。课题的名称是: 数据挖掘工具
“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”。1957,中国科学院语言研究所与计算技术研究所合作,开展俄汉机器翻译试验,翻译了9个不同类型的、较为复杂的句子。在这个草创时期,北京外国语学院、北京俄语学院、广州华南工学院、哈尔滨工业大学也分别成立了机器翻译研究组,开展俄汉或英汉机器翻译的试验。
数据挖掘实验室
(2)停滞期(1966-1975年)
在这个时期,除了极少数的机器翻译研究者在极端恶劣的条件下继续进行理论探索之外,没有进行任何的机器翻译研究和试验。 数据挖掘交友
(3)复苏期(1975-1987年) 数据挖掘论坛
在这个时期,我国机器翻译研究重振旗鼓,开始复苏。 数据挖掘交友
1975年11月,在中国科学技术情报研究所设立了一个由情报所、语言所和计算所等单位的工作人员组成的机器翻译协作研究组,以冶金题录5000条为试验材料,制定英汉机器翻译方案并上机试验。1978年5月,在计算所111机上进行抽样试验,抽样20条,达到了预期的效果。在这个时期,我国学者还开展了法汉、德汉、日汉以及汉-法/英/日/俄/德多语言机器翻译试验,取得了一定的成效。
(4)繁荣期(1987年-现在) 数据挖掘工具
这个时期是以“星译1号”机器翻译系统的问世为标志的。继“译星1号”之后,一系列的实用化商品化的机器翻译系统如雨后春笋般地推向市场,我国的机器翻译迈向了实用化和商品化的阶段。 数据挖掘实验室
面向计算机的语言研究的另一个领域是自然语言理解系统的研制。 数据挖掘论坛
自然语言理解系统研究如何让计算机理解和运用人类的自然语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。
数据挖掘交友
1966年美国公布了否定机器翻译的ALPAC报告之后,处于草创时期的机器翻译研究转入低潮,于是,同自然语言的计算机处理有关的研究,逐渐转向了自然语言理解。学者们采用了各种精巧的方法,尝试着建立计算机系统,让计算机理解自然语言,而判断计算机是否理解了自然语言的最直观的方法,就是人同计算机对话,根据计算机对于人们用自然语言所提的问题的回答,就可以看出计算机是否理解了自然语言。这一方面的研究不久便取得了令人鼓舞的进展。因此,当六十年代末期机器翻译困难重重、一筹莫展的时候,自然语言理解的研究却左右逢源、后来居上,而当机器翻译东山再起、重振旗鼓而进入复苏期的时候,自然语言理解却已获得了累累的硕果。 数据挖掘实验室
自然语言理解系统的发展可以分为第一代系统和第二代系统两个阶段。第一代系统建立在对词类和词序分析的基础之上,分析中经常使用统计方法;第二代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术。
数据挖掘论坛
第一代自然语言理解系统又可分为四种类型: 数据挖掘实验室
(1)特殊格式系统:早期的自然语言理解系统大多数是特殊格式系统,根据人机对话内容的特点,采用特殊的格式来进行人机对话。1963年,林德赛(R.Lindsay)在美国卡内基技术学院用IPL-V表处理语言设计了SAD-SAM系统,就采用了特殊格式来进行关于亲属关系方面的人机对话,系统内建立了一个关于亲属关系的数据库,可接收关于亲属关系方面的问题的英语句子提问,用英语作出回答。1968年,波布洛(D.Bobrow)在美国麻省理工学院设计了STUDENT系统,这个系统把高中代数应用题中的英语句子归纳为一些基本模式,由计算机来理解这些应用题中的英语句子,列出方程求解,并给出答案。六十年代初期,格林(B.Green)在美国林肯实验室建立了BASEBALL系统,也使用IPL-VV表处理语言,系统的数据库中存贮了关于美国1959年联邦棒球赛得分记录的数据,可回答有关棒球赛的一些问题。该系统的句法分析能力较差,输入句子十分简单,没有连接词,也没有比较级形式的形容词和副词,主要靠一部机器词典来进行单词的识别,使用了14个词类范畴,所有的问题都采用一种特殊的规范表达式回答。 数据挖掘交友
(2)以文本为基础的系统:某些研究者不满意在特殊格式系统中的种种格式限制,因为就一个专门领域来说,最方便的还是使用不受特殊格式结构限制的系统来进行人机对话,这就出现了以文本为基础的系统,1966年西蒙(R.F.Simmons)、布尔格(J.F.Burger)和龙格(R.E. Long)设计的PROTOSYNTHEX-I系统,就是以文本信息的存贮和检索方式工作的。
(3)有限逻辑系统:有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中,自然语言的句子以某种更加形式化的记号来替代,这些记号自成一个有限逻辑系统,可以进行某些推理。1968年,拉菲尔(B.Raphael)在美国麻省理工学院用LIPSP语言建立了SIR系统,针对英语提出了24个匹配模式,把输入的英语句子与这些模式相匹配,从而识别输入句子的结构,在从存贮知识的数据库到回答问题的过程中,可以处理人们对话中常用的一些概念,如集合的包含关系、空间关系等等,并可进行简单逻辑推理,机器并能在对话中进行学习,记住已学过的知识,从事一些初步的智能活动。 数据挖掘交友
1965年,斯莱格勒(J.R. Slagle)建立了DEDUCOM系统,可在情报检索中进行演绎推理。1966年,桑普逊(F.B.Thompson)建立了DEACON系统,通过英语来管理一个虚构的军用数据库,设计中使用了环结构和近似英语的概念来进行推理。1968年,凯罗格(C.Kellog)在IBM360/67计算机上,建立了CCONVERSE系统,该系统能根据关于美国120个城市的1000个事实的文件来进行推理。 数据挖掘研究院
(4)一般演绎系统:一般演绎系统使用某些标准数学符号(如谓词演算符号)来表达信息。逻辑学家们在定理证明工作上取得的全部成就,就可以用来作为建立有效的演绎系统的根据,从而能够把任何一个问题用定理证明的方式表达出来,并实际地演绎出所需要的信息,用自然语言作出回答。一般演绎系统可以表达那些在有限逻辑系统中不容易表达出来的复杂信息,从而进一步提高了自然语言理解系统的能力。1968-1969年,格林和拉菲尔建立的的QA2,QA3系统,采用谓词演算的方式和格式化的数据(formated data)来进行演绎推理,解答问题,并用英语作出回答,这是一般演绎系统的典型代表。
数据挖掘论坛
1970年以来,出现了一定数量的第二代自然语言理解系统,这些系统绝大多数是程序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的系统是LUNAR系统、SHRDLU系统、MARGIE系统、SAM系统、PAM系统。 数据挖掘工具
LUNAR系统是伍兹(W.Woods)于1972年设计的一个自然语言情报检索系统,其目的在于帮助地质学家们比较和评价从阿波罗-11火箭得到的关于月球岩石和土壤的组成成分的化学分析数据,这个系统采用形式提问语言(formal query language)来表示所提问的语义,从而对提问的句子作出语义解释,最后把形式提问语言执行于数据库,产生出对问题的回答。
SHRDLU系统是维诺格拉德(T.Winograd)于1972年在美国麻省理工学院建立了一个用自然语言指挥机器人动作的系统。该系统把句法分析、语义分析、逻辑推理结合起来,大大地增强了系统在语言分析方面的功能。该系统对话的对象是一个具有简单的“手”和“眼”的玩具机器人,它可以操作放在桌子上的具有不同颜色、尺寸和形状的玩具积木,如立方体、棱锥体、盒子等,机器人能够根据操作人员的命令把这些积木捡起来,移动它们去搭成新的积木结构,在人机对话过程中,操作人员能获得他发给机器人的各种视觉反馈,实时地观察机器人理解语言、执行命令的情况。在电视屏幕上还可以显示出这个机器人的模拟形象以及它同一个真正的活人在电传机上自由地用英语对话的生动情景。
MARGIE系统是杉克(R.Schank)于1975年在美国斯袒福人工智能实验室研制出来的。该系统的目的在于提供一个自然语言理解的直观模型。系统首先把英语句子转换为概念依存表达式,然后根据系统中有关信息进行推理,从概念依存表达式中推演出大量的事实。由于人们在理解句子时,总要牵涉到比句子的外部表达多得多的内容,因此,该系统的推理有16种类型,如原因、效应、说明、功能等等,最后,把推理的结果转换成英语输出。
SAM系统是阿贝尔森(R.Abelson)于1975年在美国耶鲁大学建立的。这个系统采用“脚本”(script)的办法来理解自然语言写的故事。所谓脚本,就是用来描述人们活动(如上饭馆、看病)的一种标准化的事件系列。杉克和阿贝尔森假定,每个人在他自己的生活实践中,会自然而然地意识到这样的脚本,在理解故事时,这些脚本可以用来建立事件发生的语境,因而也就可以用来预料它所代表的事件的情况,并以这些脚本为背景来理解自然语言,对故事中的人物、地点、事件进行推理,在推理过程中,给它们补充新的信息,最后采用“同义互训”(Paraphrase)的方法,根据计算机理解的结果,由计算机复述原来的故事。复述时,由于在推理过程中补充了许多新的信息,因而所复述的故事的内容会比原来的故事要丰富得多。计算机似乎象一个有理智的活人,把在推理过程中所推出的新信息加到故事中,添油加醋地把原来的故事说得更加精彩。例如,输入这样的简单的故事:“约翰走进了一家饭馆。他坐了下来。他生气了。他走了。”SAM系统的输出为:“约翰饿了。他决定到饭馆去。他走进了一家饭馆。服务员没理他。于是约翰生气了。他决定离开这个饭馆。”计算机推论出,约翰离开饭馆的原因是坐下来之后没有得到服务。这是因为在关于饭馆的“脚本”中,有“服务有送菜单”的项目,而输入句子中没有这样的内容,却有约翰生气的句子,因此SAM系统作出了这样的推论。 数据挖掘实验室
PAM系统是威林斯基(R.Wilensky)于1978年在美国耶鲁大学建立的另一个理解故事的系统。PAM系统也能解释故事情节,回答问题,进行推论,作出摘要。它除了“脚本”中的事件序列之外,还提出了“计划”(plan)作为理解故事的基础。所谓“计划”,就是故事中的人物为实现其目的所要采取的手段。如果要通过“计划”来理解故事,就要找出人物的目的以及为完成这个目的所采取的行动。系统中设有一个“计划库”(plan box),存贮着有关各种目的的信息以及各种手段的信息。这样,在理解故事时,只要求出故事中有关情节与计划库中存贮的信息相重合的部分,就可以理解到这个故事的目的是什么。当把一个一个的故事情节与脚本匹配出现障碍时,由于“计划库”中可提供关于一般目的的信息,就不致造成故事理解的失败。例如,营救一个被暴徒抢走的人,在“营救”这个总目的项下列若干个子目的,包括到达暴徒的巢穴以及杀死暴徒的各种方法,就可以预期下一步的行为。同时能根据主题来推论目的。例如,输入故事:“约翰爱玛丽。玛丽被暴徒抢走了。”PAM系统即可预期约翰要采取行动营救玛丽。故事中虽然没有这样的内容,但是,根据计划库中的“爱情主题”,可以推出“约翰要采取行动营救玛丽”的情节。 数据挖掘研究院
杉克等学者还进一步研究语言理解和记忆的关系,概括各种具体知识结构为一般经验,综合句法、语义、知识、推理为一体,建成FRUMP和IPP两个快速阅读系统。 数据挖掘工具
这两个系统存贮2000多个英语单词,对输入故事无须逐字逐句地分析,而是跳过某些词语提取故事中的主要信息。这样的系统可以对报刊上一些新闻故事自动地作出摘要。
上述的系统都是书面的自然语言理解系统,输入输出都是用书面文字。口头的自然语言理解系统,还牵涉到语音识别、语音合成等复杂的技术,显然是更加困难的课题,口头自然语言理解系统的研究近年来也有进展。
我国自然语言理解的研究起步较晚,比国外晚了17年。国外在1963年就建成了早期的自然语言理解系统,而我国直到1980年才建成了两个汉语自然语言理解模型,都以人机对话的方式来实现。 数据挖掘实验室
八十年代中期,在国际新一代计算机激烈竞争的影响下,自然语言理解的研究在国内得到了更多的重视,“自然语言理解和人机接口”列入了新一代计算机的研制规划,研究单位增多了,研究队伍也壮大了。
数据挖掘论坛
目前,除了机器翻译系统和自然语言理解系统之外,面向计算机的语言的研究领域还扩展到了自然语言人机接口系统、情报自动检索系统、术语数据库系统、计算机辅助教学系统、语音自动识别与合成系统、文字自动识别系统、言语统计等领域。这种面向计算机的语言研究的研究已经成为现代科学技术的一个热点。(全文完)
数据挖掘交友
参考书目: 数据挖掘论坛
⒈冯志伟,中文信息处理与汉语研究,北京,商务印书馆,1992年。
⒉Gazdar,Mellish,Natural Language Processing in LISP。 数据挖掘实验室