输入码、国标码、机内码、字型码

上传人:子 文档编号:43002234 上传时间:2018-06-04 格式:DOC 页数:7 大小:17.35KB
返回 下载 相关 举报
输入码、国标码、机内码、字型码_第1页
第1页 / 共7页
输入码、国标码、机内码、字型码_第2页
第2页 / 共7页
输入码、国标码、机内码、字型码_第3页
第3页 / 共7页
输入码、国标码、机内码、字型码_第4页
第4页 / 共7页
输入码、国标码、机内码、字型码_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《输入码、国标码、机内码、字型码》由会员分享,可在线阅读,更多相关《输入码、国标码、机内码、字型码(7页珍藏版)》请在金锄头文库上搜索。

1、输入码、国标码、机内码、字型码输入码、国标码、机内码、字型码西文是拼音文字,基本符号比较少,编码比较容易,因此,在一个计算机系统中,输入、内部处理、存储和输出都可以使用同一代码。汉字种类繁多,编码比拼音文字困难,因此在不同的场合要使用不同的编码。通常有 4 种类型的编码,即输入码、国标码、内码、字形码。 输入码输入码所解决的问题是如何使用西文标准键盘把汉字输入到计算机内。有各种不同的输入码,主要可以分为三类:数字编码、拼音编码和字编型码。 数字编码。就是用数字串代表一个汉字,常用的是国标区位码。它将国家标准局公布的 6763 个两级汉字分成 94 个区,每个区分 94 位。实际上是把汉字表示成

2、二维数组,区码、位码各用两位十进制数表示,输入一个汉字需要按 4 次键。数字编码是惟一的,但很难记住。比如“中”字,它的区位码以十进制表示为 5448(54是区码,48 是位码) ,以十六进制表示为 3630(36 是区码,30 是位码) 。以十六进制表示的区位码不是用来输入汉字的。 拼音编码。是以汉字读音为基础的输入方法。由于汉字同音字太多,输入后一般要进行选择,影响了输入速度。 字型编码。是以汉字的形状确定的编码,即按汉字的笔画部件用字母或数字进行编码。如五笔字型、表形码,便属此类编码,其难点在于如何拆分一个汉字。 国标码又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节

3、的最高位均为 0,因此可以表示的汉字数为 214=16384 个。将汉字区位码的高位字节、低位字节各加十进制数 32(即十六进制数的 20) ,便得到国标码。例如“中”字的国标码为 8680(十进制)或 7468(十六进制) 。这就是国家标准局规定的 GB231280 信息交换用汉字编码集。 内码汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上 128为了统一表示世界各国的文字,1993 年国际标准化组织公布了“通用多八位编码字符集”的国际标准 ISO/IEC 10646,简称UCS

4、(Universal Code Set) ,它为包括汉字在内的各种正在使用的文字规定了统一的编码方法。该标准使用 4 个字节来表示一个字符。其中,一个字节用来编码组,因为最高位不用,故总共表示 128 个组。一个字节编码平面,总共有 256 个平面,这样,每一组都包含256 个平面。在一个平面内,用一个字节来编码行,因而总共有 256行。再用一个字节来编码字位,故总共有 256 个字位。一个字符就被安排在这个编码空间的一个字位上。例如 ASCII 字符“A” ,它的ASCII 为 41H,而在 UCS 中的编码则为 00000041H,即位于 00 组、00 面、00 行的第 41H 字位上。

5、又如汉字“大” ,它在 GB2312 中的编码为 3473H,而在 UCS 中的编码则为 00005927H,即在 00 组、00 面、59H 行的第 27H 字位上。4 个字节的编码足以包容世界上所有的字符,同时也符合现代处理系统的体系结构。 字形码表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为 1616 点阵、提高型汉字为 2424 点阵、4848 点阵等。现在我们以 2424 点阵为例来说明一个汉字字形码所要占用的内存空间。因为每行 24 个

6、点就是 24 个二进制位,存储一行代码需要 3 个字节。那么,24 行共占用 324=72 个字节。计算公式:每行点数/8行数。依此,对于 4848 的点阵,一个汉字字形需要占用的存储空间为 48/848=648=288 个字节。(十进制)或 80(十六进制) 。例如, “中”字的内码以十六进制表示时应为 F4E8。这样做的目的是使汉字内码区别于西文的 ASCII,因为每个西文字母的 ASCII 的高位均为 0,而汉字内码的每个字节的高位均为 1。ascll信息在计算机上是用二进制表示的,这种表示法让人理解就很困难。因此计算机上都配有输入和输出设备,这些设备的主要目的就是,以一种人类可阅读的形

7、式将信息在这些设备上显示出来供人阅读理解。为保证人类和设备,设备和计算机之间能进行正确的信息交换,人们编制的统一的信息交换代码,这就是 ASCII 码表,它的全称是“美国信息交换标准代码” 。计算机中汉字的表示也是用二进制编码,同样是人为编码的。根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码。1.外码(输入码)外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。英文字母只有 26 个,可以把所有的字符都放到键盘上,而使用这种办法把所有的汉字都放到键盘上,是不可能的。所以汉字系统需要有自己的输入码体系,使汉字与键盘能建立对应关系。目前常用的输入码有拼音码、五笔字型码、自然码、

8、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。在后面的章节中,重点介绍智能全拼输入法和五笔字型输入法。2.交换码计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。我国标准总局 1981 年制定了中华人民共和国国家标准 GB2312-80信息交换用汉字编码字符集-基本集 ,即国标码。国标码字符集中收集了常用汉字和图形符号 7445 个,其中图形符号 682 个,汉字 6763 个,按照汉字的使用频度分为两级,第一级为常用汉字3755

9、个,第二级为次常用汉字 3008 个。为了避开 ASCII 字符中的不可打印字符 0100001-1111110(十六进制为 21-7E),国标码表示汉字的范围为 2121-7E7E(十六进制)。区位码是国标码的另一种表现形式,把国标 GB2312-80 中的汉字、图形符号组成一个 9494 的方阵,分为 94 个“区” ,每区包含94 个“位” ,其中“区”的序号由 01 至 94, “位”的序号也是从 01至 94。94 个区中位置总数94948836 个,其中 7445 个汉字和图形字符中的每一个占一个位置后,还剩下 1391 个空位,这 1391个位置空下来保留备用。所以给定“区”值和

10、“位”值,用四位数字就可以确定一个汉字或图形符号,其中前两位是“区”号。后两位是“位”号,如“普”字的区位码是“3853” , “通”字的区位码是“4508” 。区位码编码的最大优点是没有重码,但由于编码缺少规律,很难记忆。使用区位码的主要目的是为了输入一些中文符号或无法用其它输入法输入的汉字、制表符以及日语字母、俄语字母、希腊字母等。94 个区可以分为五组:01-15 区:是各种图形符号、制表符和一些主要国家的语言字母,其中 01-09 区为标准符号区,共有 682 个常用符号。10-15 区:为自定义符号区,可留作用户自己定义。16-55 区:是一级汉字区,共有 3755 个常用汉字,以拼

11、音为序排列。56-87 区:是二级汉字区,共有 3008 个次常用汉字,以部首为序排列。88-94 区:自定义汉字区,可留作用户自己定义。3.机内码根据国标码的规定,每一个汉字都有了确定的二进制代码,但是这个代码在计算机内部处理时会与 ASCII 码发生冲突,为解决这个问题,把国标码的每一个字节的首位上加 1。由于 ASCII 码只用7 位,所以,这个首位上的“1”就可以作为识别汉字代码的标志,计算机在处理到首位是“1”的代码时把它理解为是汉字的信息,在处理到首位是“0”的代码时把它理解为是 ASCII 码。经过这样处理后的国标码就是机内码。汉字的机内码、国际码和区位码之间的关系是:(汉字机内

12、码前两位)16=(国标码前两位)16+80H=(区码)16+A0H(汉字机内码后两位)16=(国标码后两位)16+80H=(区码)16+A0H把用十六进制表示的机内码的前两位和机内码的后两位连起来,就得到完整的用十六进制表示的机内码。在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。4.汉字的字形码字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。为了能准确地表达汉字的字形,对于每一个汉字都有相应的字形码,目前大多数汉字系统中都是以点阵的方式来存储和输出汉字的字形。所谓点阵就是将字符(包括汉字图形)看成一个矩形框内一些横竖排列

13、的点的集合,有笔画的位置用黑点表示,没笔画的位置用白点表示。在计算机中用一组二进制数表示点阵,用 0 表示白点,用 1 表示黑点。一般的汉字系统中汉字字形点阵有 1616、2424、4848 几种,点阵越大对每个汉字的修饰作用就越强,打印质量也就越高。通常用 1616 点阵来显示汉字,每一行上的 16 个点需用两个字节表示,一个 1616 点阵的汉字字形码需要 21632 个字节表示,这 32个字节中的信息是汉字的数字化信息,即汉字字模。下面以“口”为例看看 1616 点阵字形是怎样存放的(如图 3-1)。如果我们把这个“口”字图形的“.”处用“0”代替,就可以很形象地得到“口”的字形码:00

14、00H 0004H 3FFAH 2004H 2004H 2004H 2004H 2004H 2004H 2004H 2004H 2004H 3FFAH 2004H 0000H 0000H。计算机要输出“口”时,先找到显示字库的首址,根据“口”的机内码经过计算,再去找到“口”的字形码,然后根据字形码(要用二进制)通过字符发生器的控制在屏幕上进行依次扫描,其中二进制代码中是“0”的地方空扫,是“1”的地方扫出亮点,于是就可以得到“口”的字符图形。字模按构成字模的字体和点阵可分为宋体字模、楷体字模等等,这些是基本字模。基本字模经过放大、缩小、反向、旋转等交换可以得到美术字体,如长体、扁体、粗体、细体等等。汉字还可以分为简体和繁体两种,ASCII 字符也可分为半角字符和全角字符。汉字字模按国标码的顺序排列,以二进制文件形式存放在存储器中,构成汉字字模字库,亦称为汉字字形库,称汉字库。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号