RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

HNC的发展和未来

来源: 作者:unkonwn 时间:2004-12-05 点击:
1引言:提倡学术碰撞──并在语言学研究中探索
超数学、超逻辑的超碰撞模式
    学术交流的根本意义在于引发学术碰撞,学术碰撞是科学进步的根本动力。没有碰撞的学术必然衰落,碰撞活跃的学术必然兴旺,这是东西方科学技术发展形成巨大反差的根本原因。500年前,西方世界就开始重视培育有利于学术碰撞的社会环境,而东方世界到今天还对此重视不够。能否扭转这种状况,是东方能否在新世纪与西方并驾齐驱的第一要素,其它都不是第一位的。
    相互碰撞的前提是相互了解。就HNC来说,与兄弟学科双向碰撞的条件亟待改善,因为拙著《HNC理论》十分难懂。当然,拙著的难懂不等于HNC理论的难懂,但两者之间终究存在着一定关联性。准确的说法也许是“HNC理论并不难懂,但《HNC理论》那本书确实难懂”。书难懂,已是事实和历史,可以暂时不去管它。理论难懂,则需要尽快采取补救措施,否则,这次研讨会就难以完全达到预期的交流目的。所以,我的报告题目虽然采用组织委员会指定的名称“HNC理论的发展与未来”,但重点是力求对HNC理论作一个易懂的阐释。这是一件很费力的事,深感心有余而力不足,效果也许适得其反。但作为始作俑者,不能不做一点弥补过失的事。
    这次研讨会的名称是“HNC与语言学研究学术研讨会”。所以,不能把这次研讨会仅看作是许嘉璐先生最近提出的中文信息处理学界第一流派和第二流派之间的首次学术交流,因为第一流派不等于第二和第三流派之外的语言学,第一流派只是语言学中关注语言信息处理的分支。这个分支领域在中国还不够强大,这次研讨会希望促进它更加强大起来,希望原来不关心或不太关心语言信息处理的语言学家今后能给予更多的关注。当然,这个希望是不应该由我来表达的,请原谅我这种越俎代庖的失礼。实际上,我想说的是下面两点:第一,HNC也许能够为语言现象的考察和阐释提供一些新的视野和方法。第二,语言学界各领域对HNC的参预意味着不同流派的学术碰撞,将对HNC的发展提供新的动力,我们对此寄以厚望。
    学术碰撞并不是什么高深莫测的东西,从下面的实例就能清楚地看到这种碰撞现象。大家熟悉的下面两个语串“热爱人民的周总理”“他在树上摘花”,第一和第二流派所采取的分析方式有很大的差异。
    第一流派会这样提出问题:
        热爱人民的周总理=热爱(人民的周总理)?
                        =(热爱人民)的周总理?
            他在树上摘花=他在树上+他摘花?
                        =花在树上+他摘花?
HNC则以另一种方式提出问题:
    热爱人民的周总理=>热爱||人民的周总理
                      <热爱||人民||的周总理>
                      “热爱”是全局特征语义块Eg?
                       还是局部特征语义块El?(“热爱”是龙头老大么?)
                       2号难点(Eg/El 辨认难点)
        他在树上摘花=>他||在树上||摘||花
                    “摘”是摘植物花果、摘附属物、摘牌子、摘右派帽子
                         中的哪一个“摘”?
                       1号难点(多句类代码难点)
                       “在树上”=条件辅语义块Cn2
    显然,两流派对第一语串的关注焦点相同,但阐释方式有很大差异;对第二语串则连关注焦点本身就完全不同。关注焦点的差异来于两者的“立场”不同,第一流派站在“以人为本”的立场,而HNC站在“以计算机为本”的立场。阐释方式的差异来于两者的“观点、方法”不同,第一流派以“主谓宾定状补”为基本分析工具,把句法树的生成作为语句分析的基本目标;而HNC则以语义块和句类表示式为基本分析工具,把句类的认定和语义块构成分析作为语句理解的基本目标。
    站在“以人为本”的立场,“以语词解释语词”的传统释义方式是天经地义的,没有改变之必要;站在“以计算机为本”的立场,则传统释义方式被认为是不可取的,至少是有严重缺陷的,必须加以改变。按照句法树的观点,树的构成即代表对语句的一种理解;按照HNC的观点,语义块之间概念联想脉络的形成才代表对语句的基本理解。无庸讳言,两流派的分歧是巨大的。但是,也应该看到,两者在立场和观点上的不同,并不是你死我活的“阶级斗争”,而是可以互相取长补短的学术碰撞。因为,“以人为本”与“以计算机为本”并非水火不相容,两者都需要运用“以已知阐释未知”的根本原则。句法树和句类表示式也不是水火不相容,两者实际上都在对一个语串按照各自的标准进行组装,虽然组装的总体方式差异甚大,但某些局部组装的“工艺”和“技巧”并非不可以互相借鉴,这方面的潜力究竟有多大,不经过相互碰撞是难以作出准确判断的。
    上述碰撞仅仅是语言学内部两个流派之间的碰撞,与语言学研究所需要的全面碰撞相比,只是一个小小的局部碰撞。也许可以说,在所有的学术领域中,当代语言学研究可碰撞的学术范围之广和碰撞火化的奇特是独一无二的,是当之无愧的学术碰撞之王,其具体表现就是标题所概括的三“超”。
    超数学的“超”有两层意思,一是指语言现象的表述要尽量纳入数学的确定性模式,但不可能全部纳入,二是指所谓“数学确定性丧失”的危机也许可以从语言不确定性的探索中得到启发甚至找到出路。因此,语言学与当前数学的结合要寻求某种“超然”的方式。
超逻辑的“超”与超数学的“超”类似,一是指语句陈述要尽量纳入逻辑命题的范畴,但不可能全部纳入。二是指语言描述的因果关系不能都转化为逻辑演绎。因此,语言与现代数理逻辑的结合也要寻求某种“超然”的方式。
超碰撞的“超”也有两层意思,一是指碰撞的类型不是通常意义下的人文科学与自然科学的简单碰撞(如经济学的运用数学方法,历史学的运用天文学知识等),而是可以在基本概念和基本方法上迸发出思想火化的超级碰撞。二是指碰撞的范围不是与自然科学的个别领域,而是涉及文理工的众多基本领域。
两“超然”方式,在下面还会谈到。至于三“超”之说,实际上是对西方一派学者意见的归纳,这样的意见在国内不大容易听到,因为有人过于喜爱跟随国际主流,视主流之外为“异端邪说”。但是,主流之外不等于异端邪说,压制是错误的。由于本届研讨会的组织者提倡学术碰撞,所以我有勇气说了上面的话,并把它作为引言的标题。
 
2、HNC只研究自然语言的理解过程
    HNC理论是一个关于语言概念空间的理论,但它只研究这个空间的部分特性,即与自然语言的理解过程有关的特性,这是HNC对自身研究范围的基本定位。
    语言概念空间是人类概念空间的一个子空间,与自然语言空间相对应。
    语言概念空间具有第一位的同一性(共性)和第二位的差异性(个性),可以假定人类具有共同的语言概念空间。另一方面,人类拥有众多的自然语言空间。但多种多样的语言空间是同一语言概念空间的外在表现形式,自然语言空间与语言概念空间存在相互映射或相互转换的关系。如果我们把从自然语言空间到语言概念空间的转换叫做映射,把语言概念空间到自然语言空间的转换叫做逆映射,那么显然,映射是自然语言的理解过程,而逆映射是自然语言的生成过程。对语言现象的研究是否应该区分这两个不同的过程呢?HNC认为,这一区分不仅是必要的,甚至是关键性的。任何一种现象或过程,当存在正反两方面的对偶特征时,如数学中的变换与反变换,物理学中的裂变与聚变,通讯中的编码与译码,都要对正反两方面分别加以研究,这是科学研究的基本法则之一,对语言现象的研究当然也应该遵循这一原则。
HNC理论只研究语言理解过程,有意避开语言生成过程。为什么?语言太复杂了,不可能“毕其功于一役”。乔姆斯基先生的初期转换生成语法理论,有人认为它脱离语义是一个疏忽或缺陷,其实这正是乔先生的高明之处。该理论的本意就是只管语言生成过程,避开语言理解过程。当然,这两个过程不可能截然分开,两过程的研究也必然具有互补性,因为两者由同一个“顶头上司”思维过程统管着。但这两个过程终究具有本质差异,如果不加区分,反而会对自然语言研究的整体思路和策略产生不利影响。特别是“以计算机为本”的计算语言学似乎更应该重视这一区分,并从这一角度对自己的研究历史进程进行必要的反思。
语言概念空间的存在性是一个非常复杂的问题,涉及大脑或思维的根本奥秘。但必须假定语言概念空间的存在,否则语言理解过程的研究将陷入无源之水的困境。所以,HNC理论以这一存在性为其基本假定。黑格尔先生曾经说过,“哲学的开端就是一个假定”,HNC理论认为,对语言本质的研究,必须以上述存在性假定为开端。
人类的概念空间在不断发展,语言概念空间也在不断发展。但是,在笛卡尔和牛顿之前的漫长历史时期,这两者的发展都是非常缓慢的。是在这两位历史巨人的推动下,人类概念空间才获得了迅猛的发展,但语言概念这个子空间的发展步调依然。
如果把概念空间看作是人类理性认识的“加工厂”,那么,这个“加工厂”的概念“加工”能力,现代与古代有天壤之别,原因何在?但语言概念空间的“加工”能力并没有什么变化,原因又何在?
第一个问题可以说是笛卡尔、牛顿之后哲学探索的主题,从而促成了哲学研究本身从本体论向认识论的历史性转变,并取得了辉煌战果。第二个问题应该说在19-20世纪之交也引起了哲学家的广泛注意和思考,并促成了语言哲学的诞生,但遗憾的是成效不大。
第一项探索的重要成果之一是符号学的诞生,被誉为现代语言学之父的索绪尔先生也是符号学的奠基人之一。自然科学的巨人们创立了一系列前所未有的符号体系,通过这些符号体系,人们对客观事物的规律性,甚至对人类抽象思考的产物本身,能给出科学的表述。这就是符号学形成的背景。符号学的精髓也许可以概括成这样一句话,那就是:科学设计的符号就是科学的生命细胞。
20世纪西方有所建树的哲学家几乎每一位都从符号学的观点考察过自然语言现象,可惜他们的考察仅局限于自然语言符号体系本身的一般特征,未能上升到“将符号再符号化”的高度。而自然科学家的理论探索应该说一般都是处于这一高度的。
将自然语言符号体系再符号化有两方面的含义,一是对语言抽象(语言本身是对现实空间的抽象)进行再抽象,应该说这是语言概念空间研究中最为重要的基础性研究。二是将自然语言符号体系形式化,要抛弃自然语言符号体系的任意性原则(这是索绪尔先生十分强调的基本语言原则之一),而代之以关联性原则。站在“以计算机为本”的立场,这两项研究对语言理解过程显得尤为关键。但面对语言的无限性,语言学界感到困惑,有关的论述很多,这里引用一段比较有代表性的论述。
  假定语言L的全部表达式组成集合W={E1,E2,…,En,…},
 怎样确定各个Ei的所指U={M1,M2,…,Mn,…}?
 怎样确定各Ei和各Mi之间的关系,亦即怎样确定映射法则(E)R(M),
    使W映入U和使U映入W?
 ……
 然而W的成员的所指却更为缥渺多变,甚至无迹可求。因为我们不
 知道U中有哪些基本单位,也不知道有哪些复合单位,所以,我们
 不知道U是不是可列集,甚至也不知道怎样列举U的各个成员以及
 U的成员应该用何种方式去表示。
在国内的理论语言学论文中,像这样经过深沉思考的论述应该说还是比较难得的。但是,作者在语言“缥渺多变”的前提下,一连讲了4个(实际上有5个)“不知道”,接着既没有回顾许多先行者为了变“不知道”为“知道”而进行的探索,也没有进一步论证为什么就“不能知道”,作为20世纪90年代的论文,不能不说是有点落后于时代了。
引文的WU就是本文所说的自然语言空间和语言概念空间,“使W映入U”就是本文所说的“将自然语言符号体系再符号化”。值得注意的是引文中的“L的全部表达式”和“各个Ei的所指”这两个提法。就提法本身来说,完全符合语言哲学的标准,然而却是导致悲观主义的祸根。第一个提法不利于“映射法则(ERM)”的建立,因为在建立这些法则时必须采取各个击破的策略,不能把“全部”一刀切。第二个提法不利于双向思维,为什么仅考虑“所指”,而不考虑“反所指”?“使U映入W”不就是“反所指”么!实际上对“所指”的研究主要是一个归纳过程,而对“反所指”的研究主要是一个演绎过程,而解决作者所说的5个“不知道”,是需要将归纳与演绎、分析与综合的方法紧密结合起来的。
关于语言理解过程研究的方法论说明,本来可以到此为止,但美国著名心理学家黎黑先生关于“狐狸”与“刺猬”的一段话,我觉得值得在这里介绍一下,因为它对于语言学的碰撞式研究能提供一些有益的启示。黎黑先生的原文如下:
    古希腊诗人阿奇洛丘斯说过:“狐狸知晓许多事物,而刺猬只懂一件重要的事”。杰出的思想史家贝林爵士用这句寓意深远的话表达了他对作家和思想家存有这一天壤之别的看法。一般说来,人们之间也可能存有这一深刻的差异。两者之间截然有别,一方面“刺猬”爱把一切与一种单一的中心观念相联系,根据这种单一的普遍的组织原则,他们的存在以及他们所说的一切便有了意义;另一方面,“狐狸”却追求多种目标,这些目标通常或毫无联系或相互矛盾,即使有联系,也仅仅是事件方面的关连。
    Rorty先生在《Philosophy and the Mirror of Nature》一书中区分了“大P”和“小P”哲学。“大P”哲学家是哲学界的“刺猬”,他们雄心勃勃地想使哲学成为其他一切学科的首要原则和基本原则,为科学家和人文主义者提供建构理论的主要原理。相反,“小P”哲学家是哲学界的“狐狸”,他们批判地检验自己那个时代的思想,提出他们所希望的富于启发性和指导性的述评,但不提供他们自己的观点,因为他们认为本来就不存在什么基本观点。因此,构思出理想国的柏拉图是一只理性主义的“刺猬”,是一个“大P”哲学家;而他的老师苏格拉底,那只叮在国家臀部上的牛虻则如一只“狐狸”,是一个“小P”哲学家。
黎黑《心理学史》第二版序言
引这段话的目的是想说明,语言学界同样存在“大L”语言学家和“小L”语言学家。目前的情况是“小L”语言学家似乎太多了一点,更重要的是,我们需要“大L”与“小L”相结合的语言学家。通过引言中所说的“超”碰撞,这样的语言学家会逐步成长起来的,而这次研讨会将起到“催生”的作用。
 
3、语言概念空间的概念基元符号体系(第一组“M i”)
   各种数学空间的研究,形成了空间基元的重要思想。一个空间如果找到了一组完备的基元,那么这个空间的特性就可以精确表达了。把基元的思想明确引入语言研究的是美国的山克先生(R.C.Schank),由于这位先生过于“离经叛道”,在中国语言学界没有什么名气,不过在拙著的参考文献中却予以特殊优待,选了他的5部著作。
    山克先生对“转移”这个概念作了“刺猬”式的深入研究,认为它是语言概念空间的概念基元之一。但是,语言概念空间到底有多少个与“转移”相当的概念基元?山克先生却采取“狐狸”方式了。
HNC对语言概念空间的概念基元集合继续进行了“刺猬”式研究,把“转移”的“同胞胎姐妹”都找出来了,他们是:作用、过程、转移、效应、关系和状态。转移只是6“姐妹”的一员。她们一起构成语言概念空间的核心空间,命名为主体基元概念,也叫作用效应链。
关于作用效应链,拙著中有一段话,由于常被引用,已经变成了一段“套话”,这里就不来重复了。
“套话”的中心意思是:作用效应链的6个环节是任何事物的6个基本侧面。如果一个事物的这6个侧面都得到了充分描写,那么这一事物的面貌和特征就足够清晰了。所谓一个事物的知识表示,归根结底就是对这6个侧面的表述,所谓对一个事物的理解,就是要把握这6个侧面的信息和知识。语句既然是对事物的表达,那作用效应链当然也就是语句表达的核心内容。因此,作用效应链既是核心概念基元分类的总纲,又是语句分类的总纲。这一点下一节还要提到。
作用效应链只是语言概念空间中概念基元的一类,那么,这样的“类”总共有多少?许多先行者探索过这个至关重要的问题,大多数探索者自觉不自觉地走上了仿效生物分类学的思路。然而语言不是生物,远比宏观生物学复杂,仅用归纳、分析和综合的方法是不够的,还需要融合演绎及假设检验的方法。大脑中客观存在的语言概念空间,目前认知科学和脑科学可提供的知识虽然日益丰富,但离开揭示大脑奥秘这一宏伟目标,还只是万里长征迈出了第一步。比较现实的探索思路不妨多依靠一点演绎和假设检验的方式。
依据这一思路,HNC假定:语言概念空间首先可划分为具体和抽象两大子空间(或两大区域)。具体概念是指那些可以直接与具体物相对应的概念,如“山、湖、河、海、植物、动物、人物”“国家、城市”“工厂、商店”等等。抽象概念是指那些不能直接与具体事物相对应,或只能与一类具体事物的属性与表现相对应的概念,这是两个子类,统称抽象概念。前者如“作用、过程、效果、关系、状态”等等,后者如“概念、思考、情感、意识、道德、提倡、惩办、贪污、数量、质量、名词、前缀”等等。
 
3.1 抽象语言概念空间的4项假设和4类子空间
抽象概念的第一子类即作用效应链,如上面所阐释的,它构成语言概念空间的核心空间,这是关于语言概念空间构成的第一项假设。此类概念有一个鲜明的特点,就是语言哲学的“能指”与“所指”概念在这里并不完全适用,因为它既“无所不能”,又“无所不指”。
抽象概念的第二子类有点“缥渺多变”的意味,但是人类活动,包括心理活动和思维活动,显然是其中的“一大块”,理所当然地是语言表述的主要对象和内容。据此可以作出第二项假设,人类活动是直接围绕上述核心空间的外层概念空间,命名为复合基元概念空间,简称复合基元概念。
有了主体基元概念空间和复合基元概念空间,那个“缥渺多变”的抽象语言概念空间已经不那么“缥渺”了。我们把这两类概念空间合称基元概念空间,简称基元概念。此空间的基本特征是:有一个内容明朗的核心和一个同样内容明朗的庞大外层。
基元概念空间虽然巨大,但究竟不能包含全部抽象概念,还有什么大块头的抽象概念集合?几千年来哲学和自然科学共同探讨的一些基本对象可以构成抽象概念空间的另一个子空间,并命名为基本概念空间,实际上这就是关于语言概念空间构成的第三项假设。
有了基元概念空间和基本概念空间以后,那个“缥渺”的抽象语言概念空间已经相当具体化了。现在应该考虑一下完备性的问题,想一想存在什么明显的漏洞。漏洞是明摆着的,那就是语言概念空间与自然语言空间相互转换或映射所产生的需要。这个需要可以说就是转换所需要的“工具”,那就是狭义形态及广义形态里所包含的抽象概念,包括汉语里特别丰富的所谓虚词。HNC把这一类概念命名为语言逻辑概念,这是关于语言概念空间构成的第四项假设
有了基于4项假设的4个抽象概念子空间,语言概念空间的抽象“区域”就完备了么?对数学家所关心的这一首要问题,就需要采取引言中所说的“超然”态度了。现在,问题的关键不是完备性的数学证明,而是4项假设的检验。但在检验之前,需要对4类子空间的数学结构给出具体的设计。
 
3.2抽象语言概念空间的数字符号设计
抽象语言概念空间的符号设计实质上就是前面所说的“自然语言符号体系的再符号化”,这里的设计对象是语言概念空间的概念基元,与之对应的自然语言符号主要是词汇。因此这一设计也可以看作是对自然语言词汇符号的再设计。但其实施过程是先在自然语言空间归纳,而后在语言概念空间演绎,不同于WordNet或“知网”的仅在自然语言空间归纳。
概念基元的数学结构这个术语似乎有点神秘,但实际上只是一层薄薄的窗户纸。“数学结构”者,一串数字符号而已。但是,相对于自然语言符号而言,这个数字串必须进行下列3点改进:第一,要求概念基元数字串的每一位数字都具有确定和唯一的意义,而自然语言(特别是拼音语言)的音节串或字母串,其单个音节或字母一般是没有确定意义的,串的整体才有确定意义,且绝大多数不具有唯一性。第二,要求概念基元数字串从起点开始在任何一点截断,都具有相应的整体意义,而自然语言的词语一般不具有这一特性。第三,要求对概念基元的三项基本特征,即概念局部联想脉络的三项基本内容——层次性、内部关联性、外部关联性,通过数字串的适当排序分别予以明确表示,而自然语言符号不可能拥有这一表达手段。
基于这三项要求,概念基元的数字串就必须设计成
               y|(m|t|)|
的一般形式,其中符号“|”表示它前面的变量可重复。这里数字串y|表示概念的层次性,简称高层;数字串m|表示概念的内部关联性,简称中层;数字串t|表示概念的外部关联性,也叫做网络性,简称底层。符号(m|t|)|表示(m|t|)作为一个整体又可重复。其中的m|t|可以是空集,这意味着m|t|的顺序可以交换,即高层之后可直接进入底层,底层之后又可出现中层,但高层总是在最前面。
y|(m|t|)|表示方式的具体实现可以有两种选择,一种是对中层和底层符号分别加上标记符,另一种是不加标记符,仅约定高层数字串的位数,并对中层和底层给以不同的数字。HNC符号体系选择后一种表示方式。下面先给出一些典型示例,然后对符号的整体设计作进一步说明。为了便利不熟悉HNC的读者,对中层和底层符号分别加上了相当于标记符的符号()和[ ],以与高层符号相区别。
                HNC概念节点示例表
高层表示  
        0          作用
        00         “免除”和“约束”之外的所有作用
        01         对作用的承受
        02         生命体对作用的反应
        03         对作用的免除
        04         约束,使对象“有所不为”的作用
        1          过程
        10         过程的基本特征和基本类型
        11         过程的序
        12         过程的因果源流
        13         过程的趋向与转化
        14         新陈代谢与生死
        2          转移
        20         转移的基本特征
        21         接收
        22         物转移
        23         信息转移
        24         交换、替代与变换
        5          状态
        54         结构
        54-        体结构
        54-0       面结构
        54-00      线结构
        54-000     点结构
 
            7          心理活动及精神状态
71         心理活动
            711        态度
7115       人际交往中的态度
高中底层表示
        00[8]       物理作用
        00[9]       化学作用
        00[a]       生物作用
        10[b]       生命过程
        10[b](c5n) (n=1幼,n=2少,n=3青,n=4中,n=5老)
        11(e5n)    (n=1开始,n=2结束,n=3持续)
        22b         物自身转移
        23[9]       信息定向信息
        23[9](1)     问
        23[9](1)[9] 质问
        23[9](2)     答
        23[9](2)[9] 抵赖
        23[9](ea4)   依托于一定关系的定向信息(建议)
        23[9](ea5)   自上而下(指示,命令,批准)
        23[9](ea6)   自下而上(汇报,请示,呈报)
        23[9](ea7)   无上下级关系、强期待应答(要求)
        23[98]      陈述
        23[99]      善意有益的定向信息(规劝,批评,警告)
        23[9a]      恶意有害的定向信息(指责,诽谤,恐吓,欺骗)
        23[9b]      对恶意有害定向信息的回应(辩解,驳斥)
        7115[9]     交往姿态
        7115[9](e41) 不卑不亢
        7115[9](e42) 卑(谄媚)
        7115[9](e43) 亢(傲慢)
 
这些示例体现了y|(m|t|)| 结构式的全部特征,数字采用16进制。
概念的层次性通过“7-71-711-7115”概念序列不难得到一个比较清晰的印象。层次性包括语义学的上下位概念,上下位关系的表示通常采用奎廉语义网络,那是语言空间的表达方式。读者不妨与这里的概念空间表达方式比较一下,并作出自己的判断。
概念的内部关联性包括对偶、对比、包含三个方面,相应的中层符号分别是
      对偶   emn n   n=0-3 4-7
      对比   cmn dmn
      包含   - -0 -00
对偶性概念是对语义学的反义词概念的扩展,对比性概念是对近义词概念的定量化。从上面的示例可以看到,对偶性概念是一个需要深入探讨的概念,不是伟大哲学“刺猬”黑格尔先生发明的“对立统一”可以全部概括的,这次研讨会上另有专文讨论。
概念的外部关联性十分复杂,体现外部关联性的底层符号用数字符号8-b表示。但实际上,每一个底层符号都可以用一组高中层符号的组合来表达,这就是说,底层符号实质上是高中层符号的再符号化或简化。这个再符号化过程也许涉及“知觉、再认、回忆”和记忆的核心奥秘,姑妄言之,不敢深谈。从实用观点来说,底层符号的设置可简化概念关联性的计算,这是HNC当前仍在努力设计底层符号的依据或动力。“但是,底层设计是一个复杂的系统工程,我们寄希望于与语言学家及同行们的合作。”拙著中的这一段求援的呼吁,依然有效。
 
3.3语言概念空间的子空间设计
语言概念空间子空间的设计实际上就是概念类别的划分或设计。这个问题在本节的前言和3.1节里已经作了要点说明。这里补充下列两点:一是语言概念空间的整体描述及概念基元的完整符号表示;二是语言概念空间设计中演绎过程的主要体现。
3.3.1语言概念空间的整体描述及概念基元的完整符号表示
“百闻不如一见”,一张虚拟的彩色图片当然是语言概念空间整体面貌的最佳展示。可惜老夫不会这一技术,只好沿用老一套,如下表所示。
                         语言概念空间

 

               抽象概念空间                      具体概念空间
 
     主   复   基   语   基   综   语    物      p    w    基
     体   合   本   言   本   合   法    性      类   类   本
     基   基   概   逻   逻   概   概    概      概   概   物
     元   元   念   辑   辑   念   念    念      念   念   概
     概   概        概   概                                念
     念   念        念   念
                j   l   jl    s f,h,q   x     p,pe, w,pw, jw
     2   3-4    2    2   2     3        挂靠   挂靠 挂靠   2
     6    8     9   12   2     4                            7
此表的要点如下:
第一点,语言概念空间可划分为抽象概念空间和具体概念空间,抽象概念空间分7个子空间,具体概念空间分3个子空间,两者之间存在一个过渡或两可的物性概念子空间。表中字母行标出了各子空间的标记符,也叫概念类型符号,主体和复合基元概念曾以希腊字母φ为共用类型符号,已弃而不用。语法概念设置了3个符号,但目前带有数字符号串的只有fp类和w类概念都只列举了两种类型,不全。表中第一行数字代表相应概念的高层位数,复合基元概念中仅“心理反应与精神状态”为4位,其它都是3位。“挂靠”的意思是,本身不带有数字符号串,依靠与抽象概念符号的连接取得相应意义,如w54-为结构体,w54-0为面结构体,pw22b为交通运输工具,p10bc55为老年人。表中第二行数字代表相应子空间根节点的数目。
第二点,抽象概念中除语法概念外,都具有五元组特性,其中基元概念的五元组尤为完备,五元组及其各种组合称为概念类别。概念基元的完整表示式是:
      [类型符号]+[类别符号]+[数字串]           HNC1
表示式HNC1所表示的符号命名为HNC映射符号,通过HNC1及其组合,可以表达语言词汇的语义。这样,语义的表达就从自然语言空间转换到了语言概念空间,实现了“符号任意性”到“符号关联性”的转换,为计算机把握语义提供了可计算的符号基础。
五元组的意义在《HNC理论》中有详细阐释,它与词性的关系这次研讨会上也另有专文。这里只想说一点,那就是汉语词性问题的争论,如果放到语言概念空间来考察,也许更容易理清思路。黎锦熙先生关于汉语“词无定类,类无定词”的论点,高名凯先生在词类问题上独树一帜的论点,现在看来,如果范定在基元概念空间,那么,应该说黎、高两位先生的论点是无可非议的,但不能推广到全部语言概念空间。形态的狭义与广义之说,是论其“然”而未论其“所以然”。抽象概念本来就有五元组特性,汉语由于单音节特性和相应方块字的限制,只好对五元组特性采取置之不理的对策,因而出现词性兼类现象,方言里的丰富形态并不能改变汉语的这一根本特性,为什么不能对此达成共识?
第三点,上列语言概念空间的类型可以看作是语义场的类型,每一类型内部的每一个根节点所张开的语言概念集合就是一个具体的“语义场”。场是有类型的,不同类型的场有不同的特点,要分别研究。物理学的统一场论,爱因斯坦先生为之奋斗了几十年都毫无结果,语言学的“统一场论”谈何容易。但分别研究各种具体的语义场是可行的,HNC概念基元符号体系为开展这项研究,提供了一个与单纯自然语言空间有所不同的思考空间。
第四点,HNC概念基元符号体系的每一个高、中层节点就是一个义素,每一个底层节点可以看作是一个复合义素,义素集合的完备性问题曾令人生畏,随着HNC概念基元符号体系的建立,义素的完备性问题虽然并没有得到证明,但已经可以采取“超然”态度了。语义学著作中常说:“语义场分析和义素分析提出了一些而不是全部语义分析维,只能用于有限的语义空间,用于全部词语还远远不能胜任。”现在,这个说法需要修改了。
 
3.3.2 语言概念空间设计过程中的演绎
语言概念空间各子空间根节点的确定,主要是一个归纳过程。这一归纳过程是对词语中蕴涵的共性与个性向上逐级层次化的过程,直至到达最高层次为止。这一逐级层次化的“加工”过程当然不是一件轻松的事。但幸运的是:数量仅1200多个常用汉字为这一“加工”过程提供了无与伦比的便利条件。这些语义充分基元化的汉字,在现代汉语中形成了数以万计的后向连接和前向连接的双字词(两者构成“正交”矢量),蕴涵在这些双字词中的概念联想信息,其条理之分明,脉络之清晰,堪称语言信息资源之“奇观”。从这一“奇观”中归纳出“作用、过程、转移、效应、关系、状态”这6项主体基元概念的最大共性,其实并不是一件太难的事。所以,拙著《HNC理论》里说:“在这里作者不能不对创立汉字的祖辈表示敬意。可以设想,如果菲尔墨和山克先生粗通汉语,概念层次网络理论也许在20年前就出现了。”
在取得各子空间的根节点之后,各个根节点的高层设计就得主要依靠演绎了。以根节点“作用”为例,与作用最密切的概念是作用的承受,因为,如果没有承受方,作用就是“空”的、无意义的“作用”,就不必进行语言描述了。这就是说,作用必然伴随着承受,“作用的承受”必须是“作用”根节点之下的一个支节点。承受方在承受作用之后,必然产生某种效应,如果承受方是生命体,则把这种效应特殊定名为“反应”。生命体对作用没有反应是不可思议的,因此“生命体对作用的反应”也必须是“作用”的一个支节点。再从作用本身来看,有两种特殊形式的作用必须予以特殊考虑,一是取消或免除某种作用的作用,二是产生某种约束的作用。为什么要特殊考虑?因为表达这两种作用的语句具有不同于一般作用表述的特殊语句知识,那就是在作用对象(相当于语法的宾语或语义的受事)的内容方面具有特殊性也就是下一节要说明的句类知识。这样,“作用”这个根节点就需要“HNC概念节点示例表”中所给出的5个支节点,也称二级节点。
所谓高层节点设计的演绎过程,就是上述两方面的考虑:一是根概念派生出来的概念,类似于俗话所说的亲生子女。二是根概念本身的一些特殊侧面,表达这些侧面的语句蕴涵着一些特殊的语句知识。这两条主线具有一般性,或者说,假定它们是所有根节点的概念联想主线,那么,沿着这两条主线的思考过程就是演绎、而不是归纳了。
过程与转移的高层设计也鲜明地表现了上述演绎过程。“过程的序”“过程的因果源流”“过程的趋向与转化”都是“过程”的亲生子女,而“新陈代谢与生死”是“过程”的一个特殊侧面。同样,“接收”是“转移”的亲生子女,而“物转移”“信息转移”“交换、替代与变换”是“转移”的特殊侧面。这里有两个有趣的现象值得注意,一是“过程”有3个亲生子女,而“转移”只有独生子“接收”;二是10定义为“过程的基本特征和基本类型”,而20定义为“转移的基本特征”。第一个现象是由于“转移”是从“过程”分离出来的独立根概念,与“效应”是从“作用”分离出来的独立根概念类似。这样,“过程”的亲生子女就具有过继给“转移”的特性(“法律“依据),不必在“转移”里重复设置了。这好比美国是从英国独立出来的国家,英美两国的文化具有很多共性,许多文化领域的研究就可以利用这一共性(语言哲学最为明显)了。第二个现象来于“转移”的不同基本类型具有不同的句类知识,而“过程”的不同基本类型不具有这一特性。这样的解释当然只是“道其然”而未“道其所以然”,若究其所以然,则由于“转移”所依托的空间比“过程”所依托的时间复杂,此其一;“转移”与“关系”强关联,而“过程”与“关系”弱关联,此其二。
每一个根概念的高层设计都有其个性问题,这里就不一一说明了。最后需要强调的一点是:反应人类活动的复合基元概念的高层设计是归纳与演绎并重,这个子空间是语境的具体化。以往关于语境的研究主要采用“狐狸”方式,HNC则改用“刺猬”方式,试图给出一个计算机可以把握的形式化语境模式。当然,复合基元概念子空间只是一个符号基础,形式化语境模式的完善,还有待于句群、段落和篇章理论模式的配套,这里同样存在“狐狸”与“刺猬”的深层合作问题。也许可以这样说,“狐狸”与“刺猬”的“联姻”之日,就是计算机可自动生成语境之时,中国语言学能否在这一关键领域走在世界前面?应该说是很有希望的!
 
4、语言概念空间的语句基元符号体系(第二组Mi)
    973项目的一次论证会上,当我第一次公布57个基本句类表示式的时候,项目首席科学家、中科院自动化所所长马颂德教授(现任科技部副部长)在场下大声说,“我在你那本书上到处找这些表示式,就是没有找全
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?