汉字的信息处理－金锄头文库

资源描述

《汉字的信息处理》由会员分享，可在线阅读，更多相关《汉字的信息处理（20页珍藏版）》请在金锄头文库上搜索。

1、汉字的信息处理,一、什么是汉字信息处理汉字的信息处理（Chinese character information processing），指的是用电子计算机对汉字进行转换、传输、存贮、分析等加工过程。汉字信息处理与汉语信息处理共同组成中文信息处理。,中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支，是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相关联的边缘交叉性学科。信息处理技术在现代有广泛的应用，从上世纪八十年代开始，中文信息处理进入了快速发展阶段，并极大地提高了中文社会的信息处理效率。,二、汉字信

2、息处理过程（一）汉字信息处理过程的三个阶段 1.汉字信息的输入 2.汉字信息的处理 3.汉字信息的输出（二）汉字信息处理的历史据统计，全世界使用汉字的人数约占世界总人口的 36% 。虽然汉字是世界上使用人数最多的文字之一，但早期的计算机是不能处理汉字信息的。拼音文字如英文，其单词可以由为数不多的字母通过不同的排列来构成。因此，用计算机来处理就比较简单。而表意文字如汉字，其构成词的符号是独立的。不但符号数量多，而且结构复杂，计算机处理起来就比较困难。,自20世纪60年代以来，日本、中国及其他一些国家相继开展了汉字信息处理的研究。1974年，我国将汉字信息处理研究课题“748工程”列为国家重点

3、工程，研制汉字精密照排系统和汉字情报检索系统。20世纪70年代末到 80 年代初，我国在汉字基本属性、编码和存储、输入与输出设备和汉字应用系统等方面的研究取得了迅速的进展。尤其是激光精密照排系统已达到世界领先水平，微型机汉字信息处理技术进入了实用阶段，使我国计算机应用的深度和广度都向前迈进了一大步。,汉字的信息处理首先要求把汉字输人电子计算机。这一输入遇到了很大的困难。因为电子计算机是西方人发明的，应该说就是为了西文的处理而产生的。而西文，如电子计算机的创始国美国和英国使用的英文与汉字有较大的不同。,这种不同主要表现在汉字是一种独特的“方块字”上，这种方块字更接近于原始“绘画文字”的形态，它是

4、由点、撇、横等各种“笔画”在平面上组合而成的，笔画在平面上的位置有重要的意义，同一笔画放在不同的位置上就组成不同的字，汉字的笔画间必须断开，“一笔画”写不出汉字（个别的除外），因此，只有在一个“面”上才能识别汉字。而拼音文字（如英文）则不然，其字母是可以“一笔画”写出的（个别的除外），因此在“线”上就能识别。此外，汉字的字型不变和具有表意性也是与拼音文字不同的。汉字还有一字多音和一音多字，一字多义和一义多字的特点，也是拼音文字所没有的。这为向适于输入、处理拼音文字的电子计算机输入汉字带来了困难。,要想把汉字输入适于输入英文的电子计算机，就要把汉字向西文字母或数字组合转化（这里指印度一阿拉伯数字

5、，它们的输入也早已解决了）。这是什么原因呢？这是因为，在电子计算机中，机器所能识别的只有两种状态（最基本的如接通电路和断开电路），我们可用二进制数1和0来表示与此相对应的计算机能执行的机器“语言”，一种不断接通和断开的脉冲电流，就可以用1和0的序列来表示，因此，人们就把用1和0的序列的表述称为机器语言。最初的计算机使用人员的确就用这种机器语言为计算机编制程序。这是十分困难的工作。,为了更有效地编制程序，人们发明了程序设计语言，这样源程序就可以用这种语言编写它们用英文字母和十进阿拉伯数字，而利用一种编译程序使机器能自动地把英文字母和十进制数字转变成机器语言，即0和1的序列，再由机器执行。为了快速

6、输入英文字母、十进制数字和少量标点符号和运算符号，人们发明了“键盘”，前述每一个字母、符号设一个“键”，按键就输入了相应的字母或符号。,这一过程是这样的：按下表示某个字母的键，存入机内的编译程序立即把它译成机器语言二进制代码，如 A: 1000001 B: 1000010 C: 1000011 1: 0110001 2: 0110010 3: 0110011,那么为什么不设计适合汉字输入的编译语言呢？难就难在“方块字”上。作为一种拼音文字，英语只有26个字母，加上数字、标点、符号等等，有50余个基本键位就足够了，就是说，只要设定这50余个“字”与二进制代码的关系，就可以把所有用英文字母编成的源

7、程序变成机器语言，或把英文写成的任何文件输入机器进行处理。,汉字的“方块”却不是由简单的字母构成的（这是拼音文字的特点），它有6万多个字，从字形上来看，虽然基本笔画也不太多，但由于笔画的位置有意义，所以一个同样的笔画放在不同的位置上应该有不同的意义，应算不同的部件，这样下来，“形”的构件就多达600余种，怎么把它们作为基本字母如英文那样作编译处理呢？这么多的字母，是既无法用二进制代码表达，又无法用键盘输入（600键的大盘），况且人们根本无法记忆和拆解这些“字母”。,怎么办呢？只有向西文或数字转化，再通过西文或数字间接地转化为机器语言，这后一转化就可利用电子计算机原设的编译系统了，也就是可利用西

8、文键盘了。从理论上看，1956年中国学者钱文浩就提出了一种“码化理论”，认为汉字的信息处理一定要经过“码化”过程，就电报而论，可以把汉字编成4组数字的电报码（每一汉字对应4个十进制阿拉伯数字），再把数字转化成点和划构成的码系列，然后就可进行传输及其他处理了。这以后的汉字信息处理，基本上是按码化的方向发展的。,三、汉字编码方案的设计作为汉字编码的实践，最早的工作不仅远在码化理论提出之前，甚至远在电子计算机或电动式计算机产生之前。那是1880年，为了在中国应用电报，一位丹麦工程师发明了汉字的电报码，正是每个汉字4个数字，每个数字表示成不同的点划构成的。由于每个位置上的数字都有10种可能，所以4位数

9、码可区分出1万个汉字，就日常生活来看基本够用。其具体做法是按某一汉语字典顺序顺次编排，与语音、笔画等都没有直接的关系，被称为“无理”编码。它只能死记硬背，效率较低，但重码率也较低，一个熟练的报务员，每分钟可输入130个汉字，因而，现在还有人用电报码在电子计算机上输入汉字。,1928年，中国出现了“四角号码”，它的一个问题是重码率太高。一部字典收入的8877个汉字中，一组码代表两个及两个以上汉字的比例达88%。1959年原苏联科学院研制“汉一俄”翻译机时，将四角号码原来规定的10种笔画增至15种，每个汉字用5位数，前4位表示汉字的四角笔画，末位数区分重码。1963年，美国IBM公司采用林语堂的“

10、上下形检字法”，取汉字的左上角笔形和右下角笔形编码。1970年，江德耀对上述方案加以改进，确定34个“起笔”和22个“末笔”进行编码，重码字选择输入，此即首尾码，但输入速度较慢。,把字形拆开进行编码，以1961年杜定友的“字根研究”为较早的成果，他归纳出504个字根，可用来组成全部通用字，以此来编码。接着，胡立人等提出“三角编号法”，取每字三个角的笔形（字根）编码，字根定为300个，合并为99个部首，排在100键的键盘上，每字击3次键便可输入。此法后由美国王安公司购买使用。20世纪70年代末乐秀章发明一种类似的256键输入方案。杨联升提出“笔画字母”编码法，把所有的汉字分解成21种笔画，以求与

11、拉丁字母对应，按汉字书写顺序输入，为不等长码。,形码发展的一个范例是王永民于1983年推出的“五笔字型”编码法，按起笔（5种）概括汉字“形”的字根。与此同时，王永民还提出汉字形码的有关理论，如“汉字字根组字频度表”和“汉字字根实用频度表”（1982），“形码设计三原理”和“汉字字根周期表”等，不仅把形码组字法推向高级阶段，而且在汉字基础理论上做出了开创性工作。五笔字型码获得极大成功，录入员的盲打速度可达200字分。1987年，美国数字设备公司（DEC）购买了“五笔字型”专利，同年又获英国发明专利，在中文电脑打字机用户中有50以上自主选用“五笔字型”编码。峄山刻石泰山刻石,在音码方面，人们也做

12、了大量的研究，提出不少编码方案。1958年，中国颁布了汉语拼音方案，每个字有规定的读音，这对音码的编制特别有利。1965年周有光提出了电报拼音化音码，这是一个全拼音的编码，有很好的可读性，在1万字内没有重码。由于全拼，汉字字音有多至6个字母的，平均2.97个字母，因而输入时击键次数太多影响速度，后来广泛发展了各种双拼方案，即声母用一个字母，韵母用一个字母，多字母的用一个字母代替。最早提出双拼的是黎锦熙、唐艺等，后来扶良文、李金恺等设计的都是声韵双拼法。,汉字一字多音和一音多字情况相当严重，例如在1980年商务印书馆出版的现代汉语词典中，发b（毕）音的字有65个，发sh（是）音的字有44个，因而

13、要选择字，降低了效率。为解决这个问题，人们又设计了音形码，以音形互补，郭淑珍等人较早设计出音形码，后来亦有很大的发展。进而，人们又开展词语输入、联想功能等，都使汉字的输入更加容易。现在的各种编码方案已达700余种，常用的有“五笔字型”、“声数码”、“CW语词系统”、“前三末一法”、“拆声三码”、“自然码”、“五十字元法”、“双音码”、“大众码”、“二维三码”等。,综观各种汉字编码，虽然在颇大的程度上解决了汉字输入的问题，但这个信息处理的瓶颈并没有根本解决，因为除了输入，若干编码对于汉字的排序，检索都很难解决，汉字信息处理仍然有许多工作要做。20世纪90年代产生的基于模式识别和自然语言理解手写输入系统（如汉王99）为汉字信息处理提供了一条新路。近年来又推出语音输入手写校正系统，在信息处理方面又迈出坚实的一步。也许真的如此：最好的编码就是没有编码。,

展开阅读全文