中文信息处理技术原理与应用5

上传人:新** 文档编号:578842485 上传时间:2024-08-25 格式:PPT 页数:63 大小:1.90MB
返回 下载 相关 举报
中文信息处理技术原理与应用5_第1页
第1页 / 共63页
中文信息处理技术原理与应用5_第2页
第2页 / 共63页
中文信息处理技术原理与应用5_第3页
第3页 / 共63页
中文信息处理技术原理与应用5_第4页
第4页 / 共63页
中文信息处理技术原理与应用5_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《中文信息处理技术原理与应用5》由会员分享,可在线阅读,更多相关《中文信息处理技术原理与应用5(63页珍藏版)》请在金锄头文库上搜索。

1、中文信息处理技术原理与应用中文信息处理技术原理与应用中文信息处理技术原理与应用 清华大学出版社中文信息处理技术原理与应用(五)北京信息工程学院计算机系李宝安中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 第五章 中西文兼容处理技术 中西文兼容处理的概念中西文兼容处理的概念 中文信息处理系统结构中文信息处理系统结构 汉字的编码体系汉字的编码体系 系统级兼容处理方法系统级兼容处理方法 应用级兼容处理方法应用级兼容处理方法 终端级兼容处理方法终端级兼容处理方法 UNIXUNIX操作系统的中文化与国际化操作系统的中文化与国际化 开放式中西文兼容操作系统设计开放式中西文兼

2、容操作系统设计 中文操作系统的现状与发展中文操作系统的现状与发展 2中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 中西文兼容处理的概念 目前计算机信息处理主要是数据处理,知识处理能力还目前计算机信息处理主要是数据处理,知识处理能力还不强。数据表示是利用字符来实现的。比如不强。数据表示是利用字符来实现的。比如GB2312-GB2312-8080规定的规定的682682个图形字符和个图形字符和67636763个汉字等,汉字也是一个汉字等,汉字也是一种字符。种字符。 电子计算机诞生于西方,因此无论从体系结构、组织配电子计算机诞生于西方,因此无论从体系结构、组织配置的

3、硬件设计,还是从系统软件和应用软件的设计,都置的硬件设计,还是从系统软件和应用软件的设计,都适合于西文处理。适合于西文处理。 我们要利用计算机来处理中文(如信息)。可是由于汉我们要利用计算机来处理中文(如信息)。可是由于汉字字数多,字形复杂,不能直接利用现有的西文计算机字字数多,字形复杂,不能直接利用现有的西文计算机来处理汉字。来处理汉字。 在实际应用中,经常既需要汉字,也需要西文字符。客在实际应用中,经常既需要汉字,也需要西文字符。客观上要求一个信息处理系统,同时具有处理汉字和处理观上要求一个信息处理系统,同时具有处理汉字和处理西文的能力。西文的能力。3中文信息处理技术中文信息处理技术中文信

4、息处理技术原理与应用原理与应用原理与应用 如何在同一个信息系统中来实现中文和西文处理呢?如何在同一个信息系统中来实现中文和西文处理呢?是在现有的西文计算机系统上增加中文信息处理功能是在现有的西文计算机系统上增加中文信息处理功能呢,还是设计一种中文计算机系统,并在其上增加西呢,还是设计一种中文计算机系统,并在其上增加西文信息处理呢?或者是重新设计一种计算机系统,无文信息处理呢?或者是重新设计一种计算机系统,无论是软件系统,还是硬件系统,都能满足世界各种语论是软件系统,还是硬件系统,都能满足世界各种语言文字处理的要求呢?言文字处理的要求呢? 设计世界各种语言文字通用计算机信息处理系统具备设计世界各

5、种语言文字通用计算机信息处理系统具备了必要性、完备性和可能性,但缺乏现实性。了必要性、完备性和可能性,但缺乏现实性。 有关有关ISO/IEC 10646.1-1993ISO/IEC 10646.1-1993或或GB 13000.1-93GB 13000.1-93信息信息技术技术 通用多八位编码字符集通用多八位编码字符集 第一部分:体系结构与基第一部分:体系结构与基本多文种平面多文种信息处理本多文种平面多文种信息处理就是面向这个目标的。就是面向这个目标的。4中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 设计一种中文计算机系统并在其上增加西文处理能力具备了必要性,

6、但缺乏可能性,完备性和现实性。 在现有计算机系统基础上,增加中文信息处理能力具备了必要性,可能性和现实性,但缺乏完备性。目前多采用该种方法。 5中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 两个计算机系统兼容程度 兼容级别说 明012345678910两个系统完全不兼容应用程序级兼容程序设计语言级兼容输入/输出接口级兼容操作系统级兼容体系结构和代码体系级兼容微程序和微指令级兼容逻辑设计级兼容对标和电路级兼容系统装配级兼容系统体自身表5-1 11级兼容系列6中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 中文信息处理系统结构 从系

7、统功能配置角度,可以将中文信息处理系统结构划分成三级。即终端级、微型机级和计算机级。 7中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-1 中文信息处理系统三级结构示意图8中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 1 终端级 终端级由中文简易型终端、中西文通用型终端终端级由中文简易型终端、中西文通用型终端和中西文智能型终端三种组成。和中西文智能型终端三种组成。 近年出现了一种近年出现了一种WindowsWindows简易终端(简易终端(Windows Windows Basic TerminalBasic Termin

8、al,简称简称WBTWBT),),可以通过网络可以通过网络与装有与装有Windows 2000/XP/2003Windows 2000/XP/2003操作系统的操作系统的PCPC服务器进行连接,而不要求服务器必须装服务器进行连接,而不要求服务器必须装UNIXUNIX、VMSVMS等类型的操作系统。等类型的操作系统。 WBTWBT可以运行服务器上的软件,并访问各种信可以运行服务器上的软件,并访问各种信息资源。在客户端用息资源。在客户端用WBTWBT来替代一部分来替代一部分PCPC机,机,可有效地降低整个网络的建设成本。目前主要可有效地降低整个网络的建设成本。目前主要被应用在局域网中。被应用在局域

9、网中。 9中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 2 微型机级 中文微型机和西文微型机应向上兼容,不必搞出一种只能处理中文信息而不能处理西文信息的纯中文微型机。它与终端的差别在于: 系统结构 软件系统 应用功能 10中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 3计算机级 计算机级分为小型机、中型机、大型机和巨型计算机级分为小型机、中型机、大型机和巨型机四大类。相应地构成小、中、大、巨四个系机四大类。相应地构成小、中、大、巨四个系统。统。 中文信息处理系统的研究与开发,必须充分注中文信息处理系统的研究与开发,必须充分注意

10、现有计算机系统软硬件资源的特点。意现有计算机系统软硬件资源的特点。 11中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 关于汉字终端1汉字终端是人机接口的界面2汉字终端是中文信息处理系统的基础设备之一3汉字终端是一种综合性很强的基本设备 12中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 一 汉字终端系列的构成 1 1简易汉字终端简易汉字终端 此类汉字终端不提供执行用户程序的功能,其处理部分由主机完成。此类汉字终端不提供执行用户程序的功能,其处理部分由主机完成。此类终端具有下述功能:此类终端具有下述功能:l l)能输入输出汉字、字

11、符和图形符号。能输入输出汉字、字符和图形符号。2 2)保持西文哑吧型终端的显示属性。)保持西文哑吧型终端的显示属性。3 3)具有基本屏幕编辑功能。)具有基本屏幕编辑功能。4 4)能接受二种以上汉字输入编码方法。)能接受二种以上汉字输入编码方法。5 5)在主机控制下,依靠主机资源,实现某些汉字信息处理动能,并)在主机控制下,依靠主机资源,实现某些汉字信息处理动能,并保持同类西文终端的全部功能。保持同类西文终端的全部功能。6 6)适用于工业控制领域的简易汉字终端,还能实现工业过程显示,)适用于工业控制领域的简易汉字终端,还能实现工业过程显示,如流程显示、极值显示、误差分析和分数比较等。如流程显示、

12、极值显示、误差分析和分数比较等。7 7)具有自检功能)具有自检功能此类终端主要用作电报终端和电传机。可选配汉字印字机或其它输此类终端主要用作电报终端和电传机。可选配汉字印字机或其它输出设备,并配有:国家标准汉字交换码和国家标准出设备,并配有:国家标准汉字交换码和国家标准15161516或或24242424字模点阵汉字字形库。字模点阵汉字字形库。13中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 2 2通用汉字终端通用汉字终端 这类汉字终端可不提供执行用户程序的能力。由主机控制或自身管理程序这类汉字终端可不提供执行用户程序的能力。由主机控制或自身管理程序支持,实现

13、初步的汉字和字符信息处理能力。支持,实现初步的汉字和字符信息处理能力。通用汉字终端应具有下述功能:通用汉字终端应具有下述功能:l l)能输入输出汉字,字符、图形符号和图形。能输入输出汉字,字符、图形符号和图形。2 2)具有屏幕编辑功能。)具有屏幕编辑功能。3 3)保持西文灵巧型终端的显示属性。)保持西文灵巧型终端的显示属性。4 4)能接受三种以上汉字输入编码方法。)能接受三种以上汉字输入编码方法。5 5)在主机控制下,利用主机资源或在监控程序支持下,具有汉字信息处理)在主机控制下,利用主机资源或在监控程序支持下,具有汉字信息处理功能,并保持西文终端各种功能。功能,并保持西文终端各种功能。6 6

14、)配有可选的汉字打印接口,供硬拷贝输出。)配有可选的汉字打印接口,供硬拷贝输出。7 7)对主机具有中西文兼容联机通信能力,选用调制解调器等通信设备,可)对主机具有中西文兼容联机通信能力,选用调制解调器等通信设备,可适应远程终端等应用场合。适应远程终端等应用场合。8 8)具有自检功能。)具有自检功能。9 9)可通过更换功能模块来扩充功能。)可通过更换功能模块来扩充功能。通用汉字终端选配汉字印字机或其它输出设备、终端通信部件和国家标准通用汉字终端选配汉字印字机或其它输出设备、终端通信部件和国家标准15161516和和24242424字模点阵汉字字形库。字模点阵汉字字形库。 14中文信息处理技术中文

15、信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 3 3智能汉字终端智能汉字终端这类汉字终端可提供执行用户程序的能力。在主机控制或自身管理程序支持这类汉字终端可提供执行用户程序的能力。在主机控制或自身管理程序支持下,实现较强的汉字和字符信息加工能力。智能汉字终端应具有下述功下,实现较强的汉字和字符信息加工能力。智能汉字终端应具有下述功能:能:1 1)具有较强的汉字、字符处理能力。)具有较强的汉字、字符处理能力。2 2)保持西文智能型终端的显示属性。)保持西文智能型终端的显示属性。3 3)具有全屏幕编辑功能。)具有全屏幕编辑功能。4 4)能接受多种汉字输入编码方法。)能接受多种汉字输入

16、编码方法。5 5)有一定的脱机汉字信息处理能力。)有一定的脱机汉字信息处理能力。6 6)配有可选的标准串行和并行接口。)配有可选的标准串行和并行接口。7 7)对主机有较强的中西文兼容脱机通信能力,选用调制解调器等通信设备,)对主机有较强的中西文兼容脱机通信能力,选用调制解调器等通信设备, 可适应于远程终端等多种应用场合。对于同一通道上的几条输入输出数可适应于远程终端等多种应用场合。对于同一通道上的几条输入输出数据流进行多路复用与识别。据流进行多路复用与识别。8 8)配有二种程序设计语言和丰富应用程序。)配有二种程序设计语言和丰富应用程序。9 9)具有自检功能。)具有自检功能。1010)通过更换

17、功能模块(固化软件模块或硬件模块)来扩充功能,变为各种)通过更换功能模块(固化软件模块或硬件模块)来扩充功能,变为各种专用汉字终端。专用汉字终端。1111)提供辅助存储能力。)提供辅助存储能力。15中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 汉字的编码体系 各种编码的辨析与比较 常用编码方式的转换 16中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 各种编码的辨析与比较1 1ASCIIASCII与与Binary Binary 我们日常接触到的文件分我们日常接触到的文件分ASCIIASCII和和BinaryBinary两两种。种

18、。ASCIIASCII是是“美国信息交换标准编码美国信息交换标准编码”的英的英文字头缩写,可称之为文字头缩写,可称之为“美标美标”。美标规定了。美标规定了用从用从0 0到到127127的的128128个数字来代表信息的规范编个数字来代表信息的规范编码,其中包括码,其中包括3333个控制码,一个空格码,和个控制码,一个空格码,和9494个形象码。形象码中包括了英文大小写字母,个形象码。形象码中包括了英文大小写字母,阿拉伯数字,标点符号等。美标是国际上大部阿拉伯数字,标点符号等。美标是国际上大部分大小电脑的通用编码。分大小电脑的通用编码。 17中文信息处理技术中文信息处理技术中文信息处理技术原理与

19、应用原理与应用原理与应用 电脑中的一个字符大都是用一个八位数的二进制数字电脑中的一个字符大都是用一个八位数的二进制数字表示。这样每一字符便可能有表示。这样每一字符便可能有256256个不同的数值。由于美标个不同的数值。由于美标只规定了只规定了128128个编码,剩下的另外个编码,剩下的另外128128个数码没有规范,各个数码没有规范,各家用法不一。另外美标中的家用法不一。另外美标中的3333个控制码,各厂家用法也不尽个控制码,各厂家用法也不尽一致。这样我们在不同电脑间交换文件的时候,就有必要区一致。这样我们在不同电脑间交换文件的时候,就有必要区分两类不同的文件。分两类不同的文件。 第一类文件中

20、每一个字都是美标形象码或空格码。这类第一类文件中每一个字都是美标形象码或空格码。这类文件称为文件称为“美标文本文件美标文本文件”( (ASCII Text Files)ASCII Text Files),或略为或略为“文文本文件本文件”,通常可在不同电脑系统间直接交换。,通常可在不同电脑系统间直接交换。 第二类文件,也就是含有控制码或非美标码的文件,通第二类文件,也就是含有控制码或非美标码的文件,通常不能在不同电脑系统间直接交换。这类文件有一个通称,常不能在不同电脑系统间直接交换。这类文件有一个通称,叫叫“二进制文件二进制文件”( (Binary Files)Binary Files)。 18

21、中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 2 2国标、区位、国标、区位、“ “准国标准国标” ” “ “国标国标” ”是是“ “中华人民共和国国家标准信息交换用汉字编码中华人民共和国国家标准信息交换用汉字编码” ”的简称。国标表(基本表)把七千余汉字、以及标点符号、外文的简称。国标表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个字母等,排成一个9494行、行、9494列的方阵。方阵中每一横行叫一个列的方阵。方阵中每一横行叫一个“ “区区” ”,每个区有九十四个,每个区有九十四个“ “位位” ”。一个汉字在方阵中的坐标,称。一个汉字在方阵中的坐标

22、,称为该字的为该字的“ “区位码区位码” ”。例如。例如“ “中中” ”字在方阵中处于第区第字在方阵中处于第区第位,它的区位码就是位,它的区位码就是54485448。其实其实9494这个数字。它是美标中形象码的总数。国标表沿用这个这个数字。它是美标中形象码的总数。国标表沿用这个数字,本意大概是要用两个美标形象符代表一个汉字。由于美标数字,本意大概是要用两个美标形象符代表一个汉字。由于美标形象符的编码是从形象符的编码是从3333到到126126,汉字区、位码如果各加上,汉字区、位码如果各加上3232,就会,就会与美标形象码的范围重合。如上例与美标形象码的范围重合。如上例“中中”字区、位码加上字区

23、、位码加上3232后,后,得得86,8086,80。这两个数字的十六进制放在一起得。这两个数字的十六进制放在一起得56505650,称为该字的,称为该字的“国标码国标码”,而与其相对应的两个美标符号,而与其相对应的两个美标符号,VPVP,也就是也就是“中中”字的字的“国标符国标符”了。了。 19中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 如何区分国标符与美标符?如何区分国标符与美标符? 在一个中英文混用的文件里,在一个中英文混用的文件里,“VPVP”到底代表到底代表“中中”字呢,字呢,还是代表某个英文字头缩写?电子工业部第六研究所开发还是代表某个英文字头缩写

24、?电子工业部第六研究所开发CCDOSCCDOS的时候,使用了一个简便的解决方案:把国标码的两个的时候,使用了一个简便的解决方案:把国标码的两个数字各加上数字各加上128128,上升到非美标码的位置。(改变后的国标码,上升到非美标码的位置。(改变后的国标码,习惯上仍叫习惯上仍叫“国标国标”。)。) 这个方案固然解决了原来的问题,可是新的问题随之产生。这个方案固然解决了原来的问题,可是新的问题随之产生。中文文件成了中文文件成了“二进制文件二进制文件”,既不能可靠地在不同电脑系统间,既不能可靠地在不同电脑系统间交换,也不与市场上大部分以美标符号为设计对象的软件兼容。交换,也不与市场上大部分以美标符号

25、为设计对象的软件兼容。 为了区分以上两种为了区分以上两种“国标国标”,我们把原与美标形象码重合的国,我们把原与美标形象码重合的国标码称为标码称为“纯国标纯国标” ” ,而把,而把CCDOSCCDOS加上加上128128的国标码称为的国标码称为“准国标准国标”。 20中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 3 3GBKGBK码码 GBKGBK码是码是GBGB码的扩展字符编码,对多达码的扩展字符编码,对多达2 2万多的简繁汉字进行万多的简繁汉字进行了编码,简体版的了编码,简体版的Win95Win95和和Win98Win98都是使用都是使用GBKGBK作系统内

26、码。作系统内码。 从实际运用来看,微软自从实际运用来看,微软自win95win95简体中文版开始,系统就采用简体中文版开始,系统就采用GBKGBK代码,它包括了代码,它包括了TrueTypeTrueType宋体、黑体两种宋体、黑体两种GBKGBK字库(北京中易字库(北京中易电子公司提供),可以用于显示和打印,并提供了四种电子公司提供),可以用于显示和打印,并提供了四种GBKGBK汉字的汉字的输入法。此外,浏览器输入法。此外,浏览器IE4.0IE4.0简体、繁体中文版内部提供了一个简体、繁体中文版内部提供了一个GBK-GBK-BIG5BIG5代码双向转换功能。此外,微软公司为代码双向转换功能。此

27、外,微软公司为IEIE提供的语言包中,简提供的语言包中,简体中文支持(体中文支持(Simplified Chinese Language Support KitSimplified Chinese Language Support Kit)的两种字的两种字库宋体、黑体,也是库宋体、黑体,也是GBKGBK汉字(珠海四通电脑排版系统开发公司提汉字(珠海四通电脑排版系统开发公司提供)。其他一些中文字库生产厂商,也开始提供供)。其他一些中文字库生产厂商,也开始提供TrueTypeTrueType或或PostScript GBKPostScript GBK字库。字库。 21中文信息处理技术中文信息处理技

28、术中文信息处理技术原理与应用原理与应用原理与应用 许多外挂式的中文平台,如南极星、四通许多外挂式的中文平台,如南极星、四通利方(利方(RichwinRichwin)等,提供等,提供GBKGBK码的支持,包码的支持,包括字库、输入法和括字库、输入法和GBKGBK与其他中文代码的转化与其他中文代码的转化器。器。 互联网方面,许多网站网页使用互联网方面,许多网站网页使用GBKGBK代码。代码。 但是多数搜索引擎都不能很好的支持但是多数搜索引擎都不能很好的支持GBKGBK汉字搜索,大陆地区的搜索引擎有些能不完善汉字搜索,大陆地区的搜索引擎有些能不完善的支持的支持GBKGBK汉字检索。汉字检索。 22中

29、文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 GBKGBK是又一个汉字编码标准,全称是又一个汉字编码标准,全称汉汉字内码扩展规范字内码扩展规范(Chinese Chinese InternatialInternatial Code Code SpecificationSpecification),),19951995年颁布。年颁布。GBGB是国标,是国标,K K是是汉字汉字“ “扩展扩展” ”的汉语拼音第一个字母。的汉语拼音第一个字母。 GBKGBK向下与向下与GB-2312GB-2312编码兼容,向上支持编码兼容,向上支持ISO 10646.1ISO 1064

30、6.1国际标准,是前者向后者过渡的一国际标准,是前者向后者过渡的一个承启标准。个承启标准。23中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 4 4BIG5BIG5码码 BIG5BIG5码是针对繁体汉字的汉字编码,目前码是针对繁体汉字的汉字编码,目前在台湾、香港的电脑系统中得到普遍应在台湾、香港的电脑系统中得到普遍应5 5HZHZ码码 HZHZ码是在码是在InternetInternet上广泛使用的一种汉字上广泛使用的一种汉字编码。编码。“ “HZ”HZ”方案的特点,是以方案的特点,是以“ “纯国标纯国标” ”的的中文与美标码混用。那么中文与美标码混用。那么“

31、“HZ”HZ”是怎样区分国是怎样区分国标符和美标符的呢?答案其实也很简单:当一标符和美标符的呢?答案其实也很简单:当一串美标码中间插入一段国标码的时候,我们便串美标码中间插入一段国标码的时候,我们便在国标码的前面加上在国标码的前面加上 ,后面加上,后面加上 。这些附加。这些附加码分别叫码分别叫“ “逃出码逃出码” ”和和“ “逃入码逃入码” ”。 24中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 6 6ISOISO2022 CJK2022 CJK码码 ISO-2022ISO-2022是国际标准组织(是国际标准组织(ISOISO)为各种语为各种语言字符制定的编码

32、标准。采用二个字节编码,言字符制定的编码标准。采用二个字节编码,其中汉语编码称其中汉语编码称ISO-2022 CNISO-2022 CN,日语、韩语的日语、韩语的编码分别称编码分别称JPJP、KRKR。一般将三者合称一般将三者合称CJKCJK码。码。目前目前CJKCJK码主要在码主要在InternetInternet网络中使用。网络中使用。 7 7UCS UCS 和和 ISO 10646ISO 10646 1993 1993年,国际标准年,国际标准ISO10646 ISO10646 定义了通用定义了通用字符集字符集 ( (Universal Character Set, UCS)Univers

33、al Character Set, UCS)。 UCS UCS 是所有其他字符集标准的一个超集。它保是所有其他字符集标准的一个超集。它保证与其他字符集是双向兼容的。证与其他字符集是双向兼容的。25中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 8Unicode码 Unicode其实就是宽字节字符集,它对每个字符都固定使用两个字节即16位表示,于是当处理字符时,不必担心只处理半个字符。 目前,Unicode在网络、Windows系统和很多大型软件中得到应用。 26中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 常用编码方式的转换 虽

34、说有多种编码方式,实际上除虽说有多种编码方式,实际上除ASCIIASCII码外,其它区位码外,其它区位码、国标码基本上都是一回事,只是其编码的方式不码、国标码基本上都是一回事,只是其编码的方式不同、对汉字的存取方式不同。同、对汉字的存取方式不同。 机内码是机器语言编码,它包括有语言的解释、各类机内码是机器语言编码,它包括有语言的解释、各类字符的机器编码等。字符的机器编码等。 ASCIIASCII码是常用的字符、符号,为码是常用的字符、符号,为1 1到到255255,十六进制,十六进制0101到到FFFF。 区位码是包括汉字在内的特殊字符集,共分区位码是包括汉字在内的特殊字符集,共分8787区,

35、区,9494位,其基数都是从位,其基数都是从0 0开始。开始。 国标码实际上是区位码的字符集,只是其编码的基数国标码实际上是区位码的字符集,只是其编码的基数与区位码有所区别,一般用十六进制表示,区数从与区位码有所区别,一般用十六进制表示,区数从2121到到7979,位数从,位数从2121到到7 7E E。 机内码的字符集编码是区码从机内码的字符集编码是区码从A1A1到到F7F7,位码是从位码是从A1A1到到FEFE。27中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 1 1ASCIIASCII码码ASCIIASCII码码0 0至至3232一般为功能控制,一般为功

36、能控制,4848至至5757为为0 0到到9 9数字,数字,5858至至9090为大写字母,为大写字母,9797至至122122为小写字母,其他为常用符号。为小写字母,其他为常用符号。 2 2区位码区位码区位码的区位码的1 1区是常用图案符号,区是常用图案符号,2 2区是序数标数,区是序数标数,3 3区是与区是与ASCIIASCII相近的常用符号,相近的常用符号,4 4、5 5区日文片假名,区日文片假名,6 6区是拉丁区是拉丁文,文,7 7区是俄文,区是俄文,8 8区是汉语拼音,区是汉语拼音,9 9区是制表符,区是制表符,1616区以区以后是汉字区。后是汉字区。1010区至区至1515区为空区

37、。区为空区。 3 3国标码国标码国标码的推算公式:国标码区位码国标码的推算公式:国标码区位码20 20 4 4机内码机内码机内码的推算公式:机内码的推算公式: 机内码区位码机内码区位码A0 A0 28中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 中文编码的编码范围 1 1国标(国标(GBGB) 非汉字非汉字 第一字节第一字节 第二字节第二字节 A1 A1EF A1 A1EF A2 B1E2/E5EE/F1FC A2 B1E2/E5EE/F1FC A3 A1FE A3 A1FE A4 A1F3 A4 A1F3 A5 A1F6 A5 A1F6 A6 A1B8/C1

38、D8 A6 A1B8/C1D8 A7 A1C1/D1F1 A7 A1C1/D1F1 A8 A1BA/C5E9 A8 A1BA/C5E9 A9 A4EF A9 A4EF 一级汉字一级汉字 B0D6 A1FE B0D6 A1FE D7 A1F9 D7 A1F9 二级汉字二级汉字 D8F7 A1FE D8F7 A1FE 29中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 2 2BIG5 BIG5 非汉字非汉字 第一字节第一字节 第二字节第二字节 A1A2 407E/A1FE A1A2 407E/A1FE A3 407E/A1E0 A3 407E/A1E0 C6 A1F

39、E C6 A1FE C7C8 407E/A1FE C7C8 407E/A1FE 一级汉字一级汉字 A4C5 407E/A1FE A4C5 407E/A1FE C6 407E C6 407E 二级汉字二级汉字 C9F8 407E/A1FE C9F8 407E/A1FE 81A0 407E/A1D5 81A0 407E/A1D5 3 3GBK GBK 第一字节第一字节 第二字节第二字节 A8FE 40A0 A8FE 40A0 81A0 40FE 81A0 40FE30中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 系统级兼容处理方法 系统级兼容设计实质上就是中西文操

40、作系统的兼容设计。 操作系统的汉字改造,已经历了三个发展阶段。1混合阶段 2. 化合阶段 3生成阶段 31中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 1 1混合阶段混合阶段 早期为使计算机能够处理汉字,只是在应用层早期为使计算机能够处理汉字,只是在应用层改造,一般仅涉及到高级语言层。改造,一般仅涉及到高级语言层。 在此低级阶段,由于汉字信息处理程序是做在在此低级阶段,由于汉字信息处理程序是做在用户级上,只能通过编写一些汉字输入输出程用户级上,只能通过编写一些汉字输入输出程序、显示打印程序和一些管理程序来实现对汉序、显示打印程序和一些管理程序来实现对汉字信息的

41、换码、解释和控制。字信息的换码、解释和控制。 不能充分利用原系统的软硬件资源,故在汉字不能充分利用原系统的软硬件资源,故在汉字信息处理时,大大降低原系统效率。信息处理时,大大降低原系统效率。 32中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-2 混合阶段汉字信息处理系统结构设计图33中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 2. 2. 化合阶段化合阶段 对计算机系统软件核心对计算机系统软件核心操作系统进行改造操作系统进行改造 此阶段主要工作就是对操作系统的此阶段主要工作就是对操作系统的I IO O驱动程驱动程序进行中

42、文信息处理改造,序进行中文信息处理改造, 亦即对键盘管理亦即对键盘管理模块、显示管理模块和打印管理模块等有针时模块、显示管理模块和打印管理模块等有针时性地进行中文信息处理改造性地进行中文信息处理改造 这是目前计算机实现中西文兼容处理的主要途这是目前计算机实现中西文兼容处理的主要途径。径。 34中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-3 化合阶段中西文兼容处理系统结构设计图35中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 3生成阶段 在化合阶段能够比较好地实现中西文兼容处理,但在实际应用中,仍没有实现友好人机接口,即

43、系统设计思想是面向主机,而不是面向用户。 目前已有五百余种汉字输入编码方案和数十种型号打印机,有了通用输入输出模块,一个汉字系统便具有广泛的适应性了。36中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-4 生成阶段中西文兼容处理系统通用结构设计图37中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 系统级兼容小结 由前面讨论的1l级兼容结构可以看出,从硬件系统上来看,兼容主要表现在字形库、语音库,输入设备和输出设备的第5级上。 从软件系统来看,兼容的实质是表现在操作系统中,而其关键和基础是字符编码的,或者说是中文内部码。 38

44、中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 MS DOS类型的中西文兼容操作系统结构 图5-539中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 应用级兼容处理方法 应用级兼容是在应用级兼容是在1111级兼容的第级兼容的第1 1级和第级和第2 2级实现。级实现。利用原系统的程序设计语言,来编写实现中文利用原系统的程序设计语言,来编写实现中文信息处理功能的应用程序。原系统不作任何改信息处理功能的应用程序。原系统不作任何改动。动。 比如要实现中西文兼容打印输出,就需要设计比如要实现中西文兼容打印输出,就需要设计一个中文监控程序。通

45、过开关先将系统置入中一个中文监控程序。通过开关先将系统置入中文状态,调用打印程序,输出中文。该方法效文状态,调用打印程序,输出中文。该方法效率较低。率较低。 不同的应用程序,都要逐个进行修改,工作量不同的应用程序,都要逐个进行修改,工作量大,而效率低。目前已很少采用此方法。此方大,而效率低。目前已很少采用此方法。此方法的优点是不必熟悉系统。法的优点是不必熟悉系统。 40中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 终端级兼容处理方法 一个中文信息处理系统,通常可以分为终端,一个中文信息处理系统,通常可以分为终端,微型机和计算机三级结构。微型机和计算机三级结构。

46、 对于计算机级(主要指小型机、中型机、大型对于计算机级(主要指小型机、中型机、大型机和巨型机),由于其操作系统复杂,非系统机和巨型机),由于其操作系统复杂,非系统设计者很难掌握,故很少有人去改造。设计者很难掌握,故很少有人去改造。 事实上,用户都是通过终端去使用计算机,故事实上,用户都是通过终端去使用计算机,故可考虑通过改造终端中西文兼容来实现计算机可考虑通过改造终端中西文兼容来实现计算机系统的中西文兼容处理。系统的中西文兼容处理。 “终端终端”的概念是相对的,对于主机而言,其的概念是相对的,对于主机而言,其与用户接口的设备都可称为终端。与用户接口的设备都可称为终端。41中文信息处理技术中文信

47、息处理技术中文信息处理技术原理与应用原理与应用原理与应用 一般讲终端,主要是指筒易型(哑吧型)终端、一般讲终端,主要是指筒易型(哑吧型)终端、通用型(灵巧型)终端和智能型终端,它与微型通用型(灵巧型)终端和智能型终端,它与微型机有明显的区别:机有明显的区别: 终端没有标准总线,微型机有标准总线。终端没有标准总线,微型机有标准总线。 终端没有操作系统,微型机有操作系统。终端没有操作系统,微型机有操作系统。 终端以联机工作方式为主,微型机以独立工作方终端以联机工作方式为主,微型机以独立工作方式为主。式为主。42中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 终端仿真

48、终端仿真 终端仿真技术是指在现有终端条件下,去仿真某终端仿真技术是指在现有终端条件下,去仿真某主机系统配置的终端功能,基本设计思想如下:主机系统配置的终端功能,基本设计思想如下: 对于一个计算机系统来说,都配有自己的终端来对于一个计算机系统来说,都配有自己的终端来接收和发送信息。接收和发送信息。 一个中文终端,要去和一个西文计算机通过信道一个中文终端,要去和一个西文计算机通过信道来接收和发送中文信息,只要改造此中文终端,来接收和发送中文信息,只要改造此中文终端,在终端和主机接口界面和原西文终端一样,能代在终端和主机接口界面和原西文终端一样,能代替西文终端接收和发送西文信息,同时又可以接替西文终

49、端接收和发送西文信息,同时又可以接收和发送中文信息。收和发送中文信息。 43中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-8 终端仿真原理框图44中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 终端仿真的关键在于能仿真出被仿西文终端的全终端仿真的关键在于能仿真出被仿西文终端的全部功能和将中文信息格式变换成能被主机接受的部功能和将中文信息格式变换成能被主机接受的西文信息格式。主要工作有以下几点:西文信息格式。主要工作有以下几点:1 1有个较好的通用中西文终端并熟悉其软硬件结构有个较好的通用中西文终端并熟悉其软硬件结构和主机性

50、能指标。和主机性能指标。2 2熟悉掌握被仿的西文终端主要性能指标。熟悉掌握被仿的西文终端主要性能指标。3 3熟悉主机的主要性能指标,尤其是与终端有关的熟悉主机的主要性能指标,尤其是与终端有关的模块。模块。4 4主要在软件上做一个接口,使仿真终端能进入系主要在软件上做一个接口,使仿真终端能进入系统,其关键是中文信息的代码转换。统,其关键是中文信息的代码转换。 45中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 通用仿真终端 通用仿真终端,根据不同的主机系统,可以灵通用仿真终端,根据不同的主机系统,可以灵活地改变终端的软硬件结构实现终端仿真,使活地改变终端的软硬件结

51、构实现终端仿真,使西文主机具有一定的中文信息处理功能。西文主机具有一定的中文信息处理功能。该种通用仿真终端,至少有五大模块:该种通用仿真终端,至少有五大模块: 中文字库模块中文字库模块 代码转换模块代码转换模块 中文输入模块中文输入模块 中文输出模块中文输出模块 主控模块主控模块46中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 UNIX操作系统的中文化与国际化 CC-UNIXCC-UNIX是中西文兼容信息处理系统。其设计思是中西文兼容信息处理系统。其设计思想与想与CCCC一一DOSDOS基本一致。基本一致。 从层次结构角度出发,从层次结构角度出发,UNIXUN

52、IX操作系统可以分为内操作系统可以分为内核层、外壳层、实用层和应用层四个层次如图核层、外壳层、实用层和应用层四个层次如图5-85-8所示。通常用户只与应用层打交道。所示。通常用户只与应用层打交道。 为提高中西文兼容为提高中西文兼容UNIXUNIX系统的处理效率,需要从系统的处理效率,需要从内核层开始,经外壳层、实用层直到应用层,逐内核层开始,经外壳层、实用层直到应用层,逐层改造,逐层支持中西文兼容处理,如图层改造,逐层支持中西文兼容处理,如图5-95-9所示。所示。 47中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-9 UNIX四层结构48中文信息处理技

53、术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-10 CC-UNIX总体结构图49中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-11 CC-UNIX核心内存分布区50中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 开放式中西文兼容操作系统设计 通常设计中西文兼容信息处理系统,大都是对通常设计中西文兼容信息处理系统,大都是对操作系统的操作系统的BIOSBIOS层进行改造,是一种封闭式的层进行改造,是一种封闭式的结构,如图结构,如图5-115-11所示所示. . 要改变任一种输入输出方法,比如增加一种汉

54、要改变任一种输入输出方法,比如增加一种汉字输入编码方法,或配上一种打印机,都必须字输入编码方法,或配上一种打印机,都必须去熟悉系统,重新编写输入输出驱动程序。去熟悉系统,重新编写输入输出驱动程序。这对系统设计单位是一个沉重的包袱,而对用这对系统设计单位是一个沉重的包袱,而对用户则是不合理的负担。户则是不合理的负担。 51中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-12 封闭式系统结构框图j操作系统高层汉字库输入管理模块 显示管理模块 打印管理模块其他I/O模块m种输入编码方法n种显示输出方法p种显示输出方法其他I/O方法BIOS层52中文信息处理技术中

55、文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 中西文兼容操作系统接口 事实上,目前用户与中西文兼容操作系统的关系如图事实上,目前用户与中西文兼容操作系统的关系如图 5-125-12所示。所示。 第一层接口设计,是将原西文系统相应模块,扩充汉字第一层接口设计,是将原西文系统相应模块,扩充汉字信息处理功能,不得降低原有西文信息处理能力。确定信息处理功能,不得降低原有西文信息处理能力。确定接口参数,主要是内部处理体系的设计。接口参数,主要是内部处理体系的设计。 第二层接口设计,是在满足外界用户各项要求的条件下,第二层接口设计,是在满足外界用户各项要求的条件下,增加各种计算机辅助设计功

56、能,确定接口参数。这主要增加各种计算机辅助设计功能,确定接口参数。这主要是内部码向外部码转换层和外部码向内部码转换层设计。是内部码向外部码转换层和外部码向内部码转换层设计。 汉字处理模块的设计,既要满足第一层接口的要求,也汉字处理模块的设计,既要满足第一层接口的要求,也要满足第二层接口的要求。要满足第二层接口的要求。53中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 用 户汉字处理模块西文操作系统第一层接口第二层接口图5-13 中西文兼容操作系统接口示意图54中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-14 封闭式汉字系

57、统接口示意图55中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-15 开放式汉字系统接口示意图56中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-16 开放式汉字系统处理系统结构57中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 在开放式结构汉字系统中,各输入输出管理模块对其管理对象均采用分段控制的方法,以实现通用管理功能。 通用输入编码管理模块 通用打印输出管理模块 58中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-17 通用汉字编码方案输入工作流程图59中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-18 通用打印管理程序结构框图60中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图5-19 开放式中文信息处理系统结构框图61中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 中文操作系统的现状与发展 中文外挂平台的发展 自有知识产权的操作系统COSIX 发展基于Linux的自主操作系统 62中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 下课了。追求追求休息一会儿。休息一会儿。63

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号