信息化是当今世界的发展潮流,是国家社会发展的趋势。信息化水平已经成为衡量一个国
家现代化水平和综合国力的重要指标。积极推进国家信息化是我国国民经济和社会发展的
重要战略举措。提高国民的信息化素养和培养信息化人才是国家信息化建设的根本。教育
信息化是国家信息化建设的重要基础和组成部分,而计算机教育又是教育信息化的基础。
近三十年来,在众多编码人的共同努力下,汉字编码领域已是百花齐放。可是汉字输入仍
然是制约中国人进入计算机领域的难题,仍然是我国信息化建设的瓶颈之一。教育信息化
迅速发展的趋势与选择优秀的汉字输入方法没有根本解决的矛盾日渐明显。教育部副部长
、国家语委主任袁贵仁曾指出:“信息处理的主要对象是语言文字。由于汉语汉字独有的
特点,使计算机处理汉语汉字遇到了一系列难题,这些难题解决的好坏快慢,直接影响着
我国信息技术和信息产业的发展,进而关系到新世纪我国在国际上的竞争力。”因此,尽
快解决这个矛盾,对我国的现代化建设有着划时代的意义。
在汉字编码领域里,“万码奔腾”的现状由来已久。近年来,这种混乱的状况更是愈演愈
烈。这说明现在占领主要市场的形码和各种音码还不能完全满足中国人的需要,不能满足 数据挖掘研究院
教育信息化、国家信息化的需要。那么,在万码之中,到底有没有能够满足教育信息化、
国家信息化的汉字编码呢?
一、教育信息化对汉字编码的要求
要满足国家信息化、教育信息化的要求,汉字编码最起码应该具备以下四个方面的特征:
首先,能够充分体现汉字的信息特征。“形”、“音”、“义”三位一体以及“以形表义
”是汉字的信息特征。汉字的输入与输出,都是汉字信息的传递。虽然在计算机内部,汉
字信息是以二进制代码传输的,但是在人机对话过程中,应该从人的思维上体现汉字的信
息特征。所以,汉字编码也应充分表达这一特征,保证使用人在输入汉字的使用过程和思
维过程中,不断强化对汉字的理解,从而提高对汉字的运用能力,更好地实现信息交流。
单纯的音码和形码都不能满足教育信息化的要求。因为他们都只是侧重汉字信息表达的一
个方面,在输入过程的思维中根本不能完整地体现汉字“形”、“音”、“义”三位一体
的信息特征。随着长时间地使用,其弊端也逐渐显现出来。“形”码只管输入快速,不管
输进去的是什么内容;“音码”,只管输入语句的拼音,输入什么字、正确与否,往往忽
略。这一事实导致对汉字固有的“音” 、“形”、“义”三位一体的特征的认识严重弱化
。
通过我们调查发现,使用音码达两年以上的用户都有提笔忘字的现象。这不能不引起广大
国民的重视,尤其应当引起广大教育工作者和教育部门行政领导的重视与反思。自2001年
颁布了《中华人民共和国国家通用语言文字法》以来,全国广大中小学作为教育教学的主
阵地早已经开始全面落实与贯彻这一纲要,全国上下也在大力提倡“说普通话、写规范字
”。我们在小学教育中强调的“写规范字”,可是在推广使用计算机以后,学生连字都不
会写了。这可不仅仅是滑稽,更是可悲!我们不否认,应用音码对普通话的推广有一定的
作用,但如果影响到对汉字“形”的认识与理解以及使用,就有些舍本逐末了。
汉字不是拼音文字,而是在象形基础上的表意文字。《中华人民共和国国家通用语言文字
法》中从法律的角度确定了汉语拼音为汉字注音的工具。对使用规范字也做了明确规定,
汉字的地位得到了前所未有地加强与提高。所以,在信息时代,要继承和弘扬汉字文化,
就应该在应用计算机输入汉字的思维过程中,充分体现汉字的信息特征。基于这一点,我
们认为只有形音结合的汉字输入法才是最为理想的。
其次,快捷。从计算机的输入到计算机的输出,以及到互联网上,信息传递速度的提高一
直是技术专家关注的主要问题。社会的高速发展要求人们提高工作效率,这实质上是对提
高工作效率在汉字输入法上的反映。
输入快速,可以说现在所有编码都能达到这个要求。由于所谓智能化的提高,过去最慢的
拼音输入现在也已经相当快了。其实只是在汉语分词的基础上进行了词语检索的结果。这
些方法既要占用大量的磁盘空间,又要花费大量的系统开销。由于现在硬件技术的高速发
展在很大程度上掩盖了这些方法的天然缺陷,因而被大多数用户忽略。从输入的表象上看
,智能拼音已经不再是“汉字”输入方法,而可以称之为“词语输入”或“语句输入”。
由此就不难理解为什么使用拼音输入法的用户会出现“提笔忘字”的现象。对于形码而言
,只要重码率低,只要使用者经过一段时间的专门练习,都可以达到相当快的输入速度。
一些输入法比赛,速度差异相比并不是很大的话,就丝毫不能说明方法的优劣高低。以输
入速度作为一比高低的依据比较片面,也没有多大的实质性意义。
第三,易学。不断地学习才能赶上现代社会知识经济大爆炸的时代。“易学”实质上是要
求我们提高学习的效率。由于方言的广泛存在,中国南北方对“易学”的理解差异很大。
北方人认为拼音比较容易,而在南方人看来就相当困难。所以,北方人用音码的较多,南
方人用形码的较多。只有易学,才能使全国人接受,才能真正实现信息化。
易学可以说是“万码”通用的广告词。近年来,从十分钟学会到一分钟学会的都有。不少
方法吹得是天花乱坠,结果半个小时过后还扯不到正题上。这样的方法“几分钟”就学会
能让人相信吗?
只要是涉及“形”的码,首先就要选取汉字部件,然后定规则拆分汉字,最后是汉字部件
在键位上的分配。就这几个环节,概莫能外!有些方法把汉字拆分得一塌糊涂,十分不利
于汉字的发展。汉字部件的分配不过三种:强行分配;形象分配;音托分配。有的方法是
单一的分配方案,有的是混血儿,杂交品种,在键盘表现得乱七八糟,从而演绎了一幕幕
的悲剧!
如果我们把汉字部件定位在基本笔画和常用部首以及可组字汉字这个范围内的话,易学的
问题就很容易地解决了。再加上我们把汉字的“形”定义为“基本笔画按书写顺序组成的
集合”,采用书写拆分,所有拆分遇到的难题就都迎刃而解了。实质上这个思想只是承认
了汉字的书写过程、“汉字是书写的符号系统”而已,而且国家语委也颁布了《现代汉语
通用字笔顺规范》,应该是有理有据的。我们看如下的汉字组成结构图:
从这个图中我们可以看出,基本笔画是组成汉字的最小的单位,第二级是部首和可组字汉
字,第三级是不可组字汉字。从组成数量上看,上大下小,呈倒金字塔形。所以选取的汉
字部件包含基本笔画、常用部首、可组字汉字三部分,完全是合情合理的。依照这个思路
,汉字部件选取就十分明晰了,易学也就有望得到根本性地解决。通过我们对小学语文课
本识字教学的研究表明,这与现有教材的改革方向也是一致的,因为这本身符合人的学习
认知规律。
汉字部件与键盘的联系十分重要,它不但直接与易学相关,而且还与拆分规则、输入思维
的连贯性紧密相关。在三种分配中,各有利弊。强行分配主要考虑重码率的降低,形象分
配为易学打广告。综合三种方式,音托分配最为合理。有的形象分配宣传说“中文像西文
”,这种说法本身是伪科学的,既是对汉字形象的严重的破坏,又是对汉字的污辱与亵渎
!汉字与西文本身是完全不同的文字体系,怎么能用“象”来描述呢?音托分配,也就是
用“化形为音”的方式将汉字部件与键位联系起来,并且最大限度地发挥了汉语拼音的作
用。只有这种方式才是有机而自然的联系,保证了输入与书写的一致性,才是真正不用学
的输入方法。
第四 ,解决符号输入问题。符号是文字,换而言之,文字也是符号,都是人们表情达意的
方式。现在各种文本都是文字与符号的结合体,所以常用符号的实时输入问题必须解决,
而且应与汉字输入的思维保持一致,才能跟上不断发展的实际需要。
第五、在汉字输入过程中,我们还应该保证书写思维与输入思维的一致性。有了这两者的
一致以后,实现汉字的键盘书写才能得到真正保障。同时,如果利用这个思想进行汉字编
码,就可以和书写汉字的教学融合到一起。一方面对书写笔顺起到矫正作用,另一方面也
可以保证在计算机写作中思维的连贯性与一致性。这一点似乎在表面上反映不出来,但它
是教育信息化和国家信息化发展中必须达到的一个基本要求。
只有按照以上的这些的要求和思想,才能找到汉字输入法的最终解决方案。
二、键书码的思想和编码方法
在万码之中,唯一被科技部列入国家级火炬计划项目的汉字输入的是“键书汉字与符号输
入应用系统” (简称“键书码”)。
一、以下是键书码的汉字编码模式及其思想:
⒈汉字编码模式:
首码+尾码+音码=全码
⒉音码:一般情况下,汉字拼音首字母为汉字的音码;例如“汉”、“字”的音码分别为
“h”、“z”。为使“zh、ch、sh、yu”与“zi、ci、si、yi”相区分,键书码规定“zh
、ch、sh、yu”分别用“o、v、i、u”代替,例如“知”、“识”两字的音码分别为“”
o、“i”;“吃”的音码为“v”;“云”、“雨”的音码都为“u”。
⒊字元、首字元、尾字元:小学识字阶段必教必学的基本笔画、偏旁部首和一切参与汉字
组合的汉字均为“键书码”的字元;按《现代汉语通用字笔顺规范》选取汉字的第一个字
元为首字元、最后一个字元为尾字元;
⒋首码、尾码:把首、尾字元用“化形为音”(即“以音托形”)的方式转换成首、尾码
;也即是取字元名称首字的音码为其编码。
例:“汉”,首字元、尾字元分别为“氵”、“又”;首、尾码分别为“s”、“y”;全
码为“syh”。
因为在汉语拼音方案中“v”没有用,也没有以“i、u”这两个字母打头的汉语拼音,而且
汉语拼音以“o”打头的汉字非常少。所以有了“zh、ch、sh、yu”的特殊规定后,一方面
对汉字中比较难以区分的几组类似音通过严格区分起到矫正的作用,另一方面最大限度地
优化了码元的键盘分布。
二、首字元和尾字元的选取,在思维上完成了对汉字整体“形”的构建,强化了对汉字整
体“形”的认识。化形为音使字元与键位的联系变成了“零”记忆。
下面是一些汉字的字元选取示例,与字元分配示例:.
⒈字元选取优先实施“两分法”拆分
①分析《现代汉语规范字典》中的10000个汉字结构,有94.18%的汉字可直接分为两部分
。“两分法”拆分既保持了汉字形音结构的整体性和认知性,又直观、简捷,有利于汉字
教学,它的推广和应用有利于提高用户识别和应用汉字的能力。如: 数据挖掘研究院
两分法汉字拆分及编码实例一:
娘 女良娘nln 婆 波女婆bnp 法 氵去法 sqf 泼 氵发泼 sfp
规 夫见规fjg 现 王见现wjx 勘 甚力勘 ilk 慨 忄既慨 xjk
人们常用“木子李、言午许、口天吴、弓长张”描述姓氏,也用“门活阔、⻊包跑、票瓜
瓢、讠卖读、委鬼魏、忄感憾”识别、理解汉字。这完全体现了人们“从局部到整体的认
知规律”。显然 ,用“两分法”拆分汉字,既保持了汉字“形音义”完整的信息特征,又
使用户在输入汉字时,形成“识别汉字→拆分汉字→键入汉字”的线性思维过程,能极大
地提高用户识别和应用汉字的能力。
②有些汉字,虽然它们是或连或交,但其书写过程仍然是顺序书写两个传统部件或成字。
如:
“大”字是顺序书写“一”和“人”的过程;
“天”字是顺序书写“一”和“大”的过程;
“中”字是顺序书写“口”和“|”的过程;
“来”字是顺序书写“一”和“米”的过程;
“米”字是顺序书写“丷”和“木”的过程。 数据挖掘实验室
对这类按书写笔顺能够拆成两部分的汉字,也实施“两分法”拆分。
③包体“囗”和左半包体“匚”不是由连续笔画组成的,因为在《小学生规范字典》中,
出现了这两个部首,所以“键书”系统将它们作为“按书写拆分”的特例,将“囗”(国
字框)和“匚”(匠字框)作为首字元,使全包结构和左半包结构的汉字仍可进行“两分
法”拆分。如:
“国”字拆成“囗”和“玉”两部分;
“圆”字拆成“囗”和“员”两部分;
“区”字拆成“匚”和“乂”两部分;
“医”字拆成“匚”和“矢”两部分
⒉在《现代汉语规范字典》的10000个汉字中,有5.82%的汉字,不能完整地拆分为两部分
,只能取不连续的首、尾字元。例:
工 一一工hhg 心 丶丶心 ddx 凹 |一凹 iha 民 ┐レ民 oom
茶 艹木茶 cmv 解 角牛解 jnj 赢 亡凡赢 wfy 熏 丿灬熏 psx
无论两分法还是取不连续首尾字元,都从思维上构建了汉字的整体结构,表现了汉字“形
音义”的信息特征。再加上“化形为音”的联系,实现了输入与书写思维的一致,也能实
现汉字学、写、认教学与汉字输入教学的高度统一。由此我们可以看出,只要实施恰当,
应用键书码就可以不加任何转换地使汉字教学的“学、认、写、输”一次完成。
三、不同文化背景的用户对汉字的认知能力不同。有不少字虽然可以直接拆分为两部分,
但不少人对这些字不认识,怎么办?实施“一字多码”是实现这一解决这一问题的有效途
径。这样就可以使不同文化背景的用户都能自如地建立自己的认知输入体系。如:
例字 拆分与编码一 拆分与编码二 备注
没 氵殳没 sim 氵又没 sym 殳不是常用字
翱 皋羽翱 gua 白羽翱 bua 皋不是常用字
接 扌妾接 tqj 扌女接 tnj 妾不是常用字
逐 豕辶逐 izo ─辶逐 hzo 豕不是常用字
“一字多码”技术的引入不但使键书码的易学性又向前迈了一大步,同时为用户构建了一
个不断提高汉字识别能力的平台。再加上键书码的编码、拼音查询功能以及码元跟随功能
,为汉字识别能力和水平的提高提供了技术上的支持。
四、符号输入是键书码区别于其它各种输入方法,高于其它各种方法的又一大的亮点。键
书码认为,符号是文字,是中小学数理教学和各种科技文稿的组成部分。“键书”系统对
350个常用符号进行了编码。其编码方式如下:
1.将符号分为字母类和非字母类两大类,字母类符号类别标志码为“e”,非字母类符号类
别标志码为“a”;
2.第一、二键为符号名称前两个汉字的音码,第三键为符号类别标志码。如果符号名称只
有一个字,则第一键为符号名称的音码,第二、三键为符号类别标志码。如:“△”(三
角形)→sja;“☆”(五星)→wxa;“Ω”(欧米咖)→ome;“Σ”(西格马)→xge
。
键书码的符号输入,不仅仅在于它易学、快捷,而且在于它与汉字输入理念、思想完全融
合在了一起。将符号分为“非字母类”和“字母类”两大类,之所以标志码为“a”和“
e”,是因为以“a”和“e”为音码的汉字数量非常少。这样既充分利用了键位,又极
大地提高符号的输入准确率。
五、键书码的词语输入也是很有特色的。它采用“定向联想”来输入词语,词语库共计97
000条,词语输入的准确率达到100%,一次上屏率达98.5%。以输入“新疆维吾尔自治区
”为例,其具体输入方式如下所述:
⒈输入词语的第一个汉字“新”;
⒉同时接下“Shift”+“j”+“q”;(“j”和“q”分别为“疆”和“区”的音码)
两步骤简要表述为:首字+Shift+x(y)
其中,“x”是词语第二个汉字的音码,“y”是词语最后一个汉字的音码,如果词语只
有两个字,则把“y”省略即可。
键书码还可以自建词语,为用户提供了更大的方便。
在键书码中,如果把第一键理解为“首字元表示”,第二键理解为“尾字元表示”,第三
键理解为“整字表示”,则键书码可以理解为“形码”;如果把第一键理解为“首字元的
音”,第二键理解为“尾字元的音”,第三键理解为“整字的音”,则键书码可以理解为
“音码”;如果将第一、二键理解为汉字的“形的表示”,第三键理解为“整字的音”,
则键书码为“形音码”。所以,这种既可以理解为形码,又可以理解为音码,还可以理解 数据挖掘研究院
为形音码的键书码表现出了她的圆融性和完美性,这也就把形码与音码的优点集于一身,
同时又有效地避开了它们的缺点,为键书码的普适性奠定了基础。
正是由于键书码编码思想的高度前瞻性和技术领先性,所以在2003年9月中国中文信息学会
组织的论证会上得到了专家们的高度评价:“‘键书’系统的汉字编码规则简单、易学,
码元设置和汉字拆分科学,与汉字教学紧密结合,符合汉字教学规律。在同类产品中居国
内领先水平。”并且建议:“国家有关部门继续对该项目给予扶持,以尽快形成系列产品
,首先在中小学中推广应用。”
在“万码奔腾”的时代,尤其是近年来,对汉字编码有如此高的评价,确属少见。从键书
码的单字输入到词语输入,再到符号输入,无不闪现着编码人苦心孤诣、誓成第一码的宏
愿。对键书码而言,其优点还不只上述几点。其编码前二键表形取首尾的特点,同时就蕴
含着汉字的首尾二维查字方法的思想,为中文信息检索提供了一个全新的方法。应用这种
方法,必然易学、快捷、准确,这是当前应用最广泛的部首查字法、拼音查字法所无法比
拟的,所以这又必将是对汉字查字法的一个丰富,对于电子词字典的中文快速检索提供了 数据挖掘研究院
一个全新的方法和思路。
三、汉字编码的发展方向
汉字编码从一开始就演绎了一场无休止的“编码大战”。从起初的“音”、“形”之争到
现在,已经发展成了一场混战。而“音码”和“王码”依然牢固地占领着各自的阵地。由
于中国地域辽阔,方言差异非常之大,所以形成了目前“南形北音”的主体格局。
“易学”与“快速”二者的矛盾一直是困扰编码人难题。长期以来,都没有找到很好地解
决办法。各种方法只是凭借着一点或两点的优势,在市场上搅来搅去。通过将近三十年的
混战,各种方法的优缺点都得到了最大限度的体现。而且历时已久的“万码奔腾”已对社
会造成了巨大的危害。正如2002年全国政协九届五次会议提案第3264号指出的那样:“目
前许多设计不规范、不科学、不合理、粗制滥造,甚至无法使用的假冒伪劣输入法都通过
各种途径推向社会,甚至要挤进拥有大量师生的中、小学。所以又引起了社会各界选用无
所适从。各地重复设计、重复研发,浪费了大量人力和物质财富。教师教学,人们学用,
由于往往辨别不出伪劣,带有很大的盲目性。20年后的今天,虽然社会实际应用的只有十 数据挖掘研究院
几种站得住的输入法,但是计算机等汉字输入法仍是中国人进入计算机领域的一大难题。
优秀的方法得不到推广应用,而伪劣的方法鱼目混珠。有的地方‘编码大战’还在继续,
成为国内外中文信息处理的一个顽症。”
对于汉字编码,国人们现在普遍表现出了一股厌恶的情绪。有不少人现在认为汉字编码问
题已经解决了,甚至是个过时的问题。其实只要“万码奔腾”现象还存在,就说明汉字编
码问题没有得到根本的解决!
从教育信息化、国家信息化对汉字编码的要求出发,从有利于汉字学、写、认的教学出发
,从中文信息处理的需要出发,乃至从中文走向世界的需要出发,对汉字编码规范化的时
代应该来临了。
《中华人民共和国国家通用语言文字法》第十五条规定:“信息处理和信息技术产品中使
用的国家通用语言文字应当符合国家的规范和标准。”由此我们可以看出,国家从法律的
角度为汉字编码的规范化确定了基调。教育部副部长、国家语委主任袁贵仁同志从语言文
字的重要意义的角度对此做过深刻的阐述:“在信息技术及其应用飞速发展的今天,语言
文字规范标准的制定,尤其是面向信息处理的语言文字规范标准的制定,具有重大的现实
意义”, “在经济全球化浪潮冲击下,以语言文字为依托的各种文化和价值观相互影响、
竞争日趋激烈,世界上的国家、民族都非常珍视自己的语言文字所具有的标志性意义,发
达国家更是不遗余力地促进本国语言的规范、发展和传播,以扩大其思想和文化的影响。
我们必须深刻认识语言文字健康发展对保持民族文化先进性、增强文化感召力和凝聚力的
重要意义和深远影响,既要有面向世界、包容全球的胸怀与气魄,更要保持清醒的民族意
识和鲜明的民族特色,增强从语言文字工作角度建设先进文化、弘扬培育民族精神的崇高
使命感,自觉地承担起继承优秀传统,创造新的辉煌,扩大中国语言文字在世界上的影响
,提升我国国际地位,实现民族伟大复兴的光荣历史责任。”
汉字编规范化管理,已是众望所归。全国政协九届五次会议提案第3264号建议:“由国家
语言文字工作委员会、教育部牵头,信息产业部、劳动部、国家标准管理委员会、中国中
文信息学会的领导和专家,对20年来社会涌现比较优秀的、规范的、有一定影响力的输入
法进行评审。选拔几种够条件的输入法再进行必要的优化,向国内外用户推荐使用。确定
优秀又涉及专利的可政府协商采购。然后向社会免费提供使用、从而有效地推进输入法规 数据挖掘研究院
范化工作,为广大用户提供几种方便科学规范的输入法。为国内外中文信息领域的健康发
展,解决汉字输入的社会难题。”
两千年前,秦始皇“扫六合”而“书同文”,为中华民族的大团结与中华文明的源远流长
做出了不可磨灭的历史贡献;相信在二十一世纪的信息时代,汉字编码的规范化必将为中
华民族的再度强盛树立丰功伟绩!
作者简介:周永通,男,1971年出生,毕业于甘肃天水师范专科学校物理系,现在读计算
机信息管理专业。曾长期从事于教育教学一线,现为中国中文信息学会成员,北京汉文华
软件开发有限公司副总经理,从事汉字编码研究和汉字教学软件的开发。
参考文献:⒈《中国人需要什么样的汉字编码》郑远泾,虞志球;
⒉《“键书汉字与符号输入应用系统”简介》郑远泾,王兰芝;
⒊《把握信息时代特点 加强语言文字规范标准建设——在“信息时代语言文字规范标准建
设工作建设工作会”上的书面讲话》教育部副部长、国家语委主任 袁贵仁;
⒋《奋发有为,与时俱进,大力推进<国家通用语言文字法>的贯彻实施》教育部副部长、
国家语委主任 袁贵仁;
⒌《政协九届五次会议提案第3264号》张开逊,傅熹年等八人; 数据挖掘研究院
⒍《“键书”汉字与符号输入应用系统鉴定意见》,中国中文信息学会副理事长傅永和、
华绍和、曹右琦,北京语言大学教授张普,国家语言文字工作委员会教授李行健,中国社
会科学院语言所刘庆隆,人民教育出版社副编审莘艿珍,第二炮兵第二研究所高级工程师
鲁元魁,郑州大学教授段银田;
⒎《中华人民共和国国家通用语言文字法》。
信息时代对汉字编码的要求及汉字编码的发展方向
来源:
作者:unkonwn
时间:2004-12-05
点击:
0
最新评论共有 0 位网友发表了评论
查看所有评论
发表评论
热点关注

