第二章汉字信息计在算机内部的表示文档资料

上传人:博****1 文档编号:567561180 上传时间:2024-07-21 格式:PPT 页数:38 大小:1.55MB
返回 下载 相关 举报
第二章汉字信息计在算机内部的表示文档资料_第1页
第1页 / 共38页
第二章汉字信息计在算机内部的表示文档资料_第2页
第2页 / 共38页
第二章汉字信息计在算机内部的表示文档资料_第3页
第3页 / 共38页
第二章汉字信息计在算机内部的表示文档资料_第4页
第4页 / 共38页
第二章汉字信息计在算机内部的表示文档资料_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《第二章汉字信息计在算机内部的表示文档资料》由会员分享,可在线阅读,更多相关《第二章汉字信息计在算机内部的表示文档资料(38页珍藏版)》请在金锄头文库上搜索。

1、第二章第二章 汉字信息在计算机内部表示汉字信息在计算机内部表示主要内容:英文字符在计算机内部的表示中文信息在计算机中的表示汉字代码体系汉字的排序汉字编码字符集Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.2.1 英文字符在计算机内部的表示英文字符在计算机内部的表示n1.ASCII码码nASCIIASCII码码(America Standard Codefor for Information (America Sta

2、ndard Codefor for Information InterchangeInterchange)美国信息交换标准码,作为数据传输的标)美国信息交换标准码,作为数据传输的标准码。早期使用准码。早期使用7 7 个位来表示个位来表示英文字母、数字英文字母、数字0909及其它及其它符号符号,现在则使用,现在则使用8 8个位,最多可以给个位,最多可以给256256个字符个字符( (包括字包括字母、数字、标点符号、控制字符及其他符号母、数字、标点符号、控制字符及其他符号) )分配分配( (或指定或指定) )数值。数值。 Evaluation only.Created with Aspose.Sl

3、ides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.nASCIIASCII码字符标准中用码字符标准中用7 7位二位二进制数定义了进制数定义了128128个字符个字符,其中其中9494个为图形字符,个为图形字符,3232个个为控制字符,为控制字符,1 1个为空格字个为空格字符和一个符和一个DelDel键。键。nASCIIASCII的编码空间如图所示,的编码空间如图所示,图中把图中把7 7位二进制数分为位二进制数分为高高3 3位作为列号,低位作为列号,低4 4位位作为行作为行号,并用十六进制表示,从

4、号,并用十六进制表示,从而组成了一个而组成了一个ASCIIASCII编码空编码空间。间。012345670控控制制字字符符区区1图形字符区23456789ABCDEFEvaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n2.扩展扩展ASCII码码n 由于由于ASCIIASCII码只能表示码只能表示9494个字符,因此若需要使计算机个字符,因此若需要使计算机还能够处理其他西文(如德文、法文、西班牙文等),则还能够处理其他西

5、文(如德文、法文、西班牙文等),则必须对必须对ASCIIASCII码进行扩充。码进行扩充。n 最简单的方式是采用最简单的方式是采用8 8位二进制编码来表示一个扩展的位二进制编码来表示一个扩展的ASCIIASCII码字符集。码字符集。n 扩展扩展ASCIIASCII码的编码空间如图所示。码的编码空间如图所示。n GL GL图形区用作图形区用作ASCIIASCII码,码,GRGR图形字符区为其他一个西方图形字符区为其他一个西方国家的语言文字编码。国家的语言文字编码。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Prof

6、ile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.0123456789ABCDEF0C0控制字符区C1控制字符区1GL图形字符区GR图形字符区23456789ABCDEFEvaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n 为了尽可能多地使得英文与其他西方语言文字系统兼为了尽可能多地使得英文与其他西方语言文字系统兼容,国际化组织在容,国际化组织在ISO8859ISO8859的

7、第的第110110部分中定义了新增部分中定义了新增128128个码元的字符编码集。个码元的字符编码集。n 这这1010个部分分别定义了个部分分别定义了ASCIIASCII码和其扩展字符集。不码和其扩展字符集。不同的扩展字符集用同的扩展字符集用ISO8859ISO8859后跟不同的数字表示。后跟不同的数字表示。n 扩展扩展ASCIIASCII码采用码采用高高4 4位作列号,低位作列号,低4 4位作行号位作行号。 Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004

8、-2011 Aspose Pty Ltd.Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n3.CJK-Roman n CJK-RomanCJK-Roman是指在中日韩字符编码标准中开发的是指在中日韩字符编码标准中开发的ASCIIASCII码,码,分别是分别是GB-RomanGB-Roman、CNS-RomanCNS-Roman、JIS-Roman JIS-Roman 和和KS-RomanKS-Roman。CJK-R

9、omanCJK-Roman除下列字符与除下列字符与ASCIIASCII码不一致之外,其他都与码不一致之外,其他都与ASCIIASCII相同相同。码元值ASCIIGB-RomanCNS-RomanJIS-RomanKS-Roman0x24¥0x5CW0x7E Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.2.2 中文信息在计算机中的表示中文信息在计算机中的表示n 为了能使汉字能够在计算机中通行,亚洲国家和地区为了能使

10、汉字能够在计算机中通行,亚洲国家和地区除了制定除了制定CJK-RomanCJK-Roman标准外。国际化标准组织()、标准外。国际化标准组织()、国际电气电子工程师协会()以及各汉字使用国国际电气电子工程师协会()以及各汉字使用国家和地区在计算机技术发展中,也制定了形式多样的汉字家和地区在计算机技术发展中,也制定了形式多样的汉字编码字符集。其中最具有代表性的是编码字符集。其中最具有代表性的是ISO/IEC 2022ISO/IEC 2022标准。标准。n 该标准定义了位代码和位代码的空间及其代码空该标准定义了位代码和位代码的空间及其代码空间扩充技术。迄今为止,绝大多数计算机系统所采用的字间扩充技

11、术。迄今为止,绝大多数计算机系统所采用的字符集都是以此标准作为基础。符集都是以此标准作为基础。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n从从ASCIIASCII码的扩展中我们可以得出,如果采用多个位编码的扩展中我们可以得出,如果采用多个位编码,则除去控制字符区之外,可以获得码,则除去控制字符区之外,可以获得94*94*9494*94*94个编个编码空间。码空间。n若采用双字节的若采用双字节的7 7位代码,则为

12、了保持与位代码,则为了保持与ASCIIASCII系统的兼容,系统的兼容,通常采用高位置通常采用高位置1 1的方法来区分汉字代码与的方法来区分汉字代码与ASCIIASCII代码。若代码。若采用采用3 3字节的字节的7 7位代码,则可以用一个字节作为汉字代码,位代码,则可以用一个字节作为汉字代码,其余其余2 2个个7 7位编码作为汉字代码。位编码作为汉字代码。n参照参照ISO/IEC2022ISO/IEC2022标准,中国大陆、中国台湾地区、日本标准,中国大陆、中国台湾地区、日本和韩国等在标准的框架下制定了相应的字符编码标准。和韩国等在标准的框架下制定了相应的字符编码标准。Evaluation o

13、nly.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.2.3 汉字代码体系汉字代码体系n1.汉字交换码汉字交换码n 汉字交换码是用于信息交换的汉字代码,也称汉字传汉字交换码是用于信息交换的汉字代码,也称汉字传输码,在输码,在GB2312GB2312中用双字节表示。它用于汉字信息在计算中用双字节表示。它用于汉字信息在计算机之间的传输。与机之间的传输。与ASCIIASCII码不同,汉字的这种代码表示一码不同,汉字的这种代码表示一般不能直接用于信息处理

14、般不能直接用于信息处理。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n2.汉字处理码汉字处理码n 汉字处理码是用于信息处理的汉子代码,也称汉字内汉字处理码是用于信息处理的汉子代码,也称汉字内码或汉字机内码。码或汉字机内码。n 汉字的内码在不同的汉字操作系统中的长度可以不同。汉字的内码在不同的汉字操作系统中的长度可以不同。为了表示汉字的数量,同时考虑到汉字信息的存储和传输为了表示汉字的数量,同时考虑到汉字信息的存储

15、和传输效率等,通常中文操作系统用双字节长度表示汉字的内码,效率等,通常中文操作系统用双字节长度表示汉字的内码,并把每个字节的高位置并把每个字节的高位置1 1。这样系统中的。这样系统中的ASCIIASCII码字符就能码字符就能够与汉字字符区分。够与汉字字符区分。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n3.汉字输入码汉字输入码n 汉字的输入码通常指汉字的键盘输入编码。根据汉字汉字的输入码通常指汉字的键盘输入编码

16、。根据汉字的属性,汉字的输入键盘码可以分为:音码、形码以及音的属性,汉字的输入键盘码可以分为:音码、形码以及音形组合码。根据汉字编码说用的字符类别,则可以分别采形组合码。根据汉字编码说用的字符类别,则可以分别采用用2626个英文字母的大键盘编码和采用个英文字母的大键盘编码和采用1010个素质的小键盘编个素质的小键盘编码。汉字的输入码通过键盘转换程序转换成汉字的机内码。码。汉字的输入码通过键盘转换程序转换成汉字的机内码。n4.汉字字形码汉字字形码n 汉字的字形码是表示汉字字形的字模数据,通常用点汉字的字形码是表示汉字字形的字模数据,通常用点阵、矢量函数等方式表示。用点阵表示时,汉字字形码就阵、矢

17、量函数等方式表示。用点阵表示时,汉字字形码就是这个汉字字形点阵代码。是这个汉字字形点阵代码。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n5.汉字地址码汉字地址码n 汉字地址码是在一个汉字系统中,某一汉字字型信息汉字地址码是在一个汉字系统中,某一汉字字型信息存放在汉字库中的逻辑地址的编码。存放在汉字库中的逻辑地址的编码。n 相对于相对于GB2312GB2312中中16*1616*16点阵字库,地址码和汉字码之点阵

18、字库,地址码和汉字码之间的关系:间的关系:n地址码地址码=(=(内码第一字节内码第一字节A1H)94+(A1H)94+(内码第二字节内码第二字节) ) 3232Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n6.汉字区位码汉字区位码n 汉字区位码既是一种输入码,也是汉字交换码的另一汉字区位码既是一种输入码,也是汉字交换码的另一种表示形式。种表示形式。n 在在GB2312-80GB2312-80中,交换码、区位码、处

19、理码之间存在着中,交换码、区位码、处理码之间存在着简单的转换,设交换码为简单的转换,设交换码为JHJH(十六进制),区位码为(十六进制),区位码为QWQW(十进制),处理码为(十进制),处理码为CLCL(十六进制),则:(十六进制),则: n J=Q+32 J=Q+32 再转换为十六进制再转换为十六进制n H=W+32 H=W+32 再转换为十六进制再转换为十六进制n C=J+80H C=J+80Hn L=H+80H L=H+80H Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Co

20、pyright 2004-2011 Aspose Pty Ltd.n7.代码页代码页n 不同国家的人使用着不同语言的操作系统。然而,操不同国家的人使用着不同语言的操作系统。然而,操作系统厂商若要根据各个国家和地区使用不同语言文字的作系统厂商若要根据各个国家和地区使用不同语言文字的人开发不同的操作系统,在成本、系统维护与升级等方面人开发不同的操作系统,在成本、系统维护与升级等方面的开销太大。为此,微软公司在开发的开销太大。为此,微软公司在开发MS-DOSMS-DOS和和Windows3.1Windows3.1的各种产品时,进一步将依赖于各具体平台的各文种的字的各种产品时,进一步将依赖于各具体平台

21、的各文种的字符集加以整理,并对各个具体的代码页都赋予一个代号,符集加以整理,并对各个具体的代码页都赋予一个代号,称作称作“代码页代码页ID”ID”。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.2.4汉字的排序汉字的排序n1.拼音序拼音序n 按照拼音顺序对汉字进行排列。按照拼音顺序对汉字进行排列。n 为此首先要设计一张汉字与拼音的对照表,也要考虑为此首先要设计一张汉字与拼音的对照表,也要考虑到到一字多音一字多音的特

22、点。的特点。n2.笔画序笔画序n 按照汉字书写的笔画多少来排序,由少到多或由多到按照汉字书写的笔画多少来排序,由少到多或由多到少。少。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n3.字符序字符序n 按照每个汉字的大写来排序。汉字的字符序通常是以按照每个汉字的大写来排序。汉字的字符序通常是以GB2312-80GB2312-80为标准。为标准。n4.汉字属性数据库汉字属性数据库n 汉字属性数据库是按照字符编码集中的

23、汉字以及其属汉字属性数据库是按照字符编码集中的汉字以及其属性,建立起相应的数据库。性,建立起相应的数据库。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.2.5汉字编码字符集汉字编码字符集n 按照一组无歧义的规则而定义的汉字词汇的有序几个按照一组无歧义的规则而定义的汉字词汇的有序几个称为称为汉字编码字符集汉字编码字符集。其中每一个汉字和代码之间具有一。其中每一个汉字和代码之间具有一一对应的关系。在信息处理中,汉字编码

24、字符集用于汉字一对应的关系。在信息处理中,汉字编码字符集用于汉字信息表示、交换、传输、处理、存储、输入及显示。信息表示、交换、传输、处理、存储、输入及显示。n1.GB2312-80nGB2312-80GB2312-80共收录共收录74457445个汉字及其他字符。个汉字及其他字符。n19861986年国家标准局颁布年国家标准局颁布GB2312-80GB2312-80的更正和增补版,简称的更正和增补版,简称为为GB6345.1-86 GB6345.1-86 Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile

25、 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.区号字符数量内容说明194图形符号区272数字和标点符号区394全角的GB-Roman字符(全角ASCII码)483平假名586片假名648大小写希腊字符766大小写西里尔字符86326个全角拼音字母和37个注音字母976制表符10-150未安排16-553755一级汉字56-873008二级汉字88-940未安排Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011

26、 Aspose Pty Ltd.n2.Big5n Big5Big5是中国台湾地区信息业常用的汉字编码字符集的是中国台湾地区信息业常用的汉字编码字符集的一种代码空间一种代码空间, , 可直接用作处理码。可直接用作处理码。n 其编码采用双字节编码,编码范围是第一字节其编码采用双字节编码,编码范围是第一字节A 1-FEA 1-FE,第二字节,第二字节40-7E40-7E,编码空间在一个,编码空间在一个94*15794*157的矩阵中,最的矩阵中,最多可以容纳多可以容纳1475814758个码元个码元。实际上。实际上Big5Big5中收录了中收录了1349413494个字个字符,代码空间如下表所示。符

27、,代码空间如下表所示。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.区号字符数内容1157155个图形符号,2个缩写符号21579个度量汉字,9个缩写字符,21个制表符,大小写拉丁符(少w-z),各种数字符号3127小写拉丁字符“w-z”,48个大小写希腊字符,37个注音符,5个声符,33个缩写控制符4-385401一级汉字39-400未使用41-897652二级汉字90-940未使用Evaluation only

28、.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n3.ISO/IEC 10646n ISO 10646ISO 10646是一个国际标准编号,该标准的英文全称是一个国际标准编号,该标准的英文全称为:为:Information

29、 Technology - Universal Multiple - Information Technology - Universal Multiple - Octet Coded Character SetOctet Coded Character Set,简称,简称UCSUCS。中文全称为:。中文全称为:信信息技术息技术-通用多八位编码字符集,亦称大字符集通用多八位编码字符集,亦称大字符集。这一标。这一标准为世界各种主要语文的字符准为世界各种主要语文的字符( (包括繁体及简体的中文字包括繁体及简体的中文字) )及附加符号,编订统一的内码。及附加符号,编订统一的内码。n ISO 1064

30、6 ISO 10646标准由国际标准化组织标准由国际标准化组织ISOISO颁布,用来实现颁布,用来实现全球所有文种的统一编码。该标准被广泛应用于电子化地全球所有文种的统一编码。该标准被广泛应用于电子化地表示、传输、交换、处理、储存、输入及显现世界上各种表示、传输、交换、处理、储存、输入及显现世界上各种语言的书面形式以及附加符号语言的书面形式以及附加符号。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n国际标准化组织

31、于国际标准化组织于19931993年发表年发表 ISO 10646 ISO 10646 国际编码标准国际编码标准的首个版本,全名是的首个版本,全名是 ISO/IEC 10646 ISO/IEC 10646 第一部分第一部分ISO/IEC ISO/IEC 10646-1:199310646-1:1993。它收录了。它收录了 20902 20902 个表意字符。个表意字符。20002000年年1010月发表了第一部分的新版,新增收了月发表了第一部分的新版,新增收了6,5826,582个表意字符个表意字符于扩展区于扩展区A A里。里。ISO/IEC 10646 ISO/IEC 10646 的第二部分

32、在的第二部分在 2001 2001 年发年发表,增收了表,增收了 42711 42711个表意字符于扩展区个表意字符于扩展区B B里。里。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n USCUSC体系结构基于体系结构基于“多多8 8位位”。即。即4 4个个8 8位。位。n 这这4 4个个8 8位由左而右命名为组八位(位由左而右命名为组八位(G-octetG-octet)、面八位)、面八位(P-(P-octet)

33、octet)、行八位、行八位(R-octet)(R-octet)和位八位和位八位(C-octet)(C-octet)。n ISO10646 ISO10646规定其字符码的规定其字符码的b32b32必须为必须为0 0,因而整个编码空,因而整个编码空间可区分为间可区分为128128个组(个组(00-7F00-7F),每一组一般由),每一组一般由256256个字面组成个字面组成(00-FF00-FF),每个字面由),每个字面由256256行组成(行组成(00-FF00-FF),每行包含),每行包含256256位(位(00-FF00-FF),为一个编码位置。除此之外,),为一个编码位置。除此之外,IS

34、O10646ISO10646规定每规定每个字面的最后两个编码位置保留不用(个字面的最后两个编码位置保留不用(FFFEFFFE和和FFFFFFFF)。)。n 所以所以ISO10646ISO10646整个编码空间总共有整个编码空间总共有256*128=32768256*128=32768个字面,个字面,每个字面为每个字面为256*256=65534256*256=65534个编码位置,合计个编码位置,合计21474181122147418112个编个编码位置。码位置。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Pro

35、file 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n下图描述了UCS的体系结构。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.字面(32768)字面(32768)第0组第0字面称为“基本多文种字面”(BMP)辅助字面:24541个,用以收容WG2陆续收集、整理和编码的各国文字。专用字面:8226个,WG2不予规定,保留供使用者自行添加ISO10646 未收录的字符。包含

36、00组的0F、10和E0-FF共计34个字面,以及组60-7F共8192 个字面。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n 当计算机系统只使用当计算机系统只使用BMPBMP的字符码时,可以省略组八位和面八的字符码时,可以省略组八位和面八位。因而将字符由位。因而将字符由3232位降为位降为1616位。位。n ISO10646 ISO10646所有字面中,目前仅有第所有字面中,目前仅有第0 0、第、第1 1、第

37、、第2 2字面真正收字面真正收录了编码字符。截至目前所收集、整理得非表意文字和符录了编码字符。截至目前所收集、整理得非表意文字和符号部分,扣除已编入者,其余全部编入第字面,而表意号部分,扣除已编入者,其余全部编入第字面,而表意文字部分扣除已经编入文字部分扣除已经编入BMPBMP者,其余全部编入第者,其余全部编入第2 2字面。字面。n ISO10646 ISO10646的的BMPBMP编码如下:编码如下:n(1 1)0000-007F0000-007F:基本拉丁字母区。:基本拉丁字母区。n(2 2)0080-00A00080-00A0:控制符区。其中:控制符区。其中0080-009F0080-0

38、09F为为C1C1控制区,控制区,00A000A0为软回车。为软回车。n(3 3)00A1-1FFF00A1-1FFF:拼音文字区。收录各种拼音文字字符。:拼音文字区。收录各种拼音文字字符。n(4 4)2000-28FF2000-28FF:符号区,收录各种符号,包括标点符号、上下:符号区,收录各种符号,包括标点符号、上下标、钱币符号、数字、箭头、数学符号、工程符号等。标、钱币符号、数字、箭头、数学符号、工程符号等。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 20

39、04-2011 Aspose Pty Ltd.n(5 5)2E80-33FF2E80-33FF:中日韩符号区。收录康熙字典部首、中:中日韩符号区。收录康熙字典部首、中日韩辅助部首、注音符号等。日韩辅助部首、注音符号等。n(6 6)3400-4DFF3400-4DFF:中日韩认同表意文字扩充:中日韩认同表意文字扩充A A区,总计收区,总计收录录65826582个中日韩汉字。个中日韩汉字。n(7 7)4E00-9FFF4E00-9FFF:中日韩认同的表意文字区,总计收录:中日韩认同的表意文字区,总计收录2090220902个中日韩汉字。个中日韩汉字。n(8 8)A000-A4FFA000-A4FF

40、:彝族文字区。:彝族文字区。n(9 9)AC00-D7FFAC00-D7FF:韩文拼音组合字区,收录以韩文音符拼:韩文拼音组合字区,收录以韩文音符拼成的文字。成的文字。n(1010)D800-DFFFD800-DFFF:S S区,专用于区,专用于UTF-16UTF-16。n(1111)E000-F8FFE000-F8FF:专用字区,其内容不予规定,供使用:专用字区,其内容不予规定,供使用者自行添加。者自行添加。n(1212)F900-FAFFF900-FAFF:中日韩兼容表意文字区,总共收录:中日韩兼容表意文字区,总共收录302302个中日韩汉字。个中日韩汉字。n(1313)FB00-FFFD

41、FB00-FFFD:文字表现形式区,收录组合拉丁文字、:文字表现形式区,收录组合拉丁文字、希伯来文等。希伯来文等。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n4.GBK编码编码n GBK

42、GBK是在是在GB2312-80GB2312-80的基础上增加了的基础上增加了ISO10646-1ISO10646-1:19931993的汉字。主要包括下列几个部分:的汉字。主要包括下列几个部分:GB2312-80 GB2312-80 中的汉字,中的汉字,以及以及GB6345.1-86GB6345.1-86中更正和增补的汉字;中更正和增补的汉字; GB/ GB/12345-9012345-90中的非汉字;中的非汉字;1424014240个附加汉字和个附加汉字和166166个附加符号。个附加符号。n 在在GBKGBK标准中,标准中,GBK/1GBK/1和和GBK/5GBK/5为非汉字图形字符区,

43、为非汉字图形字符区,GBK/2GBK/2、GBK/3GBK/3和和GBK/4GBK/4为汉字区,另外还有为汉字区,另外还有3 3个用户自定义个用户自定义区,有区,有18941894个码元位置。个码元位置。n GBK GBK标准是对以前多个标准的发展,并与标准是对以前多个标准的发展,并与GB2312-80GB2312-80保保持向上兼容。各个区中的内容如下表所示。持向上兼容。各个区中的内容如下表所示。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011

44、Aspose Pty Ltd.编码定义区字符数内容GBK/1717来自GB2312-80和GB/T12345-90中的非汉字GBK/26763来自GB2312-80的汉字GBK/36080来自 ISO10646-1:1993的汉字GBK/48160来自 ISO10646-1:1993的8059个汉字和101个附加汉字GBK/5166来自Big5的非汉字以及其他字符Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.Eva

45、luation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.n5.GB18030-2000n 国家标准国家标准GB18030-2000GB18030-2000信息交换用汉字编码字符集信息交换用汉字编码字符集 基

46、本集的扩充是我国继基本集的扩充是我国继GB2312-1980GB2312-1980和和GB13000-1993GB13000-1993之之后最重要的汉字编码标准,是未来我国计算机系统必须遵后最重要的汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一。循的基础性标准之一。n 中国大陆以双字节编码的中国大陆以双字节编码的GBGB已无法容纳新增字符,因已无法容纳新增字符,因此,此,GB18030-2000GB18030-2000编码标准就在原来编码标准就在原来GB2312-1981GB2312-1981编码和编码和GBKGBK编码标准的基础上进行扩充,增加了四字节(编码标准的基础上进行扩充,

47、增加了四字节(3232位)位)部分的编码。此标准可以完全对应部分的编码。此标准可以完全对应ISO10646ISO10646所有的字面,所有的字面,现阶段现阶段GB18030GB18030收录了在收录了在ISO10646ISO10646基本面字面的所有汉字,基本面字面的所有汉字,再整合再整合GBKGBK的汉字后达到了的汉字后达到了2748427484个汉字。总编码空间超过个汉字。总编码空间超过150150万个码位。万个码位。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyrigh

48、t 2004-2011 Aspose Pty Ltd.nGB18030GB18030标准中采用单字节、双字节和四字节三种方式对字符标准中采用单字节、双字节和四字节三种方式对字符进行编码,其中:进行编码,其中:n单字节使用单字节使用00-7F00-7F码位(对应于码位(对应于ASCIIASCII码的相应码位);码的相应码位);n双字节部分,首位字节码是双字节部分,首位字节码是81-FE81-FE,尾字节码位是,尾字节码位是40-7E40-7E和和80-80-FEFE;n四字节部分使用四字节部分使用30-3930-39作为对双字节编码扩充的后缀。这样扩作为对双字节编码扩充的后缀。这样扩充的四字节编

49、码,其范围是充的四字节编码,其范围是81308130-FE39FE3981308130-FE39FE39。其中第一、。其中第一、三字节编码码位为三字节编码码位为81-FE81-FE,第二、四字节编码码位均是,第二、四字节编码码位均是30-3930-39。n其中四字节的编码顺序是其中四字节的编码顺序是0x81308130-0x80308139; 0x81308130-0x80308139; 0x81308230-0x81308239; 0x8130FE30-0x8130FE39; 0x81308230-0x81308239; 0x8130FE30-0x8130FE39; 0x81318130-0

50、x8131-8139; 0x8131FE30-0x8131FE39; 0x81318130-0x8131-8139; 0x8131FE30-0x8131FE39; 0x82308130-0x82308139; 0xFE308130-0xFE308139; 0x82308130-0x82308139; 0xFE308130-0xFE308139; 0xFE39FE30-0xFE39FE390xFE39FE30-0xFE39FE39Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyr

51、ight 2004-2011 Aspose Pty Ltd.n在在GB18030-200的编码中,单字节编码收录了的编码中,单字节编码收录了GB-Roman的的全部全部128个字符;个字符;n 双字节部分收录了双字节部分收录了:n(1 1)GB13000.1-1993GB13000.1-1993中的全部中的全部CJKCJK统一汉字字符;统一汉字字符;n(2 2)GB13000.1-1993GB13000.1-1993的的CJKCJK兼容区挑选出来的兼容区挑选出来的2121个汉字;个汉字;n(3 3)GB13000.1-1993GB13000.1-1993中收录而中收录而GB2312GB2312

52、中未收录的中国台湾地区使用的图中未收录的中国台湾地区使用的图形字符形字符139139个;个;n(4 4)GB13000.1-1993GB13000.1-1993收录的其他字符收录的其他字符3131个;个;n(5 5)GB12345-90GB12345-90的竖排标点符号的竖排标点符号1919个;个;n(6 6)GB2312-80GB2312-80中的非汉字符号;中的非汉字符号;n(7 7)GB2312-80GB2312-80未收录的未收录的1010个小写罗马数字;个小写罗马数字;n(8 8)GB2312-80GB2312-80收录的带音调的汉语拼音收录的带音调的汉语拼音5 5个;个;n(9 9

53、)汉字数字)汉字数字“”“”、B B表义文字描述符表义文字描述符1313个;个;n(1010)增补汉字和部首)增补汉字和部首/ /构件构件8080个;个;n(1111)双字节欧元符号。)双字节欧元符号。n GB18030-2000的四字节编码部分收录了双字节汉字之外的四字节编码部分收录了双字节汉字之外的包括了的包括了CJK统一汉字扩充统一汉字扩充A集在内的集在内的GB13000.1-1993中全中全部字符。部字符。Evaluation only.Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0.Copyright 2004-2011 Aspose Pty Ltd.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号