字符的表示-编码标准.docx

上传人:自*** 文档编号:126284162 上传时间:2020-03-23 格式:DOCX 页数:2 大小:38.09KB
返回 下载 相关 举报
字符的表示-编码标准.docx_第1页
第1页 / 共2页
字符的表示-编码标准.docx_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《字符的表示-编码标准.docx》由会员分享,可在线阅读,更多相关《字符的表示-编码标准.docx(2页珍藏版)》请在金锄头文库上搜索。

1、字符的表示编码标准 字符是人与计算机交互过程中不可缺少的重要信息。要使计算机能处理、存储字符信息,首先也必须用二进制 “ 0”和 “ 1”代码对字符进行编码。 下面以西文字符和汉字字符为例,介绍常用的编码标准。 ( 1) ASCII编码 ASCII 编码是由美国国家标准委员会制定的一种包括数字、字母、通用符号和控制符号在内的字符编码集,全称叫美国国家信息交换标准代码( American Standard Code for Information Interchange)。 ASCII码是一种 7位二进制编码,能表示 2 7 128种国际上最通用的西文字符,是目前计算机中,特别是微型计算机中使用

2、最普遍的字符编码集。 ASCII编码包括 4类最常用的字符。 数字 “ 0” “ 9”。 ASCII编码的值分别为 0110000B 0111001B,对应十六进制数为 30H 39H。 26个英文字母。大写字母 “A” “Z”的 ASCII编码值为 41H 5AH,小写字母 “a” “z”的 ASCII编码值为 61H 7AH。 用字符。如 “ ”、 “ ”、 “ ”、 “*”和 “/”等共 32个。 制符号。如空格符和车符等共 34个。 ASCII码是一种 7位编码,它存时必须占全一个字节,也即占用 8位: b 7b 6b 5b 4b 3b 2b 1b 0,其中 b 7恒为 0,其余几位为

3、 ASCII码值。 ( 2)汉字编码 1981年颁行的信息交换用汉字编码字符集基本集(代号为GB2312-80)是交换码的国家标准,所以交换码也称为国标码。GB2312-80共收集和定义了 7445个基本汉字。其中,使用频度较高的 3755个汉字定义为一级汉字。使用频率较低的 3008个汉字定义为二级汉字,共有 6763个汉字。另外还定义了拉丁字母、俄文字母、汉语拼音字母、数字和常用符号等 682个。 GB2312 80规定每个汉字用 2个字节的二进制编码,每个字节最高位为 0,其余 7位用于表示汉字信息。 例如,汉字 “啊 ”的国标码的 2个字节的二进制编码 00110000B和 00100

4、001B,对应的十六进制数为 30H和 21H。 2000 年3 月17 日 ,国家信息产业部和国家质量技术监督局联合颁布了GB18030 2000信息技术 信息交换用汉字编码字符集 基本集的扩充。在新标准中采用了单、双、四字节混合编码,收录了 27000多个汉字和藏、蒙、维吾尔等主要的少数民族文字,总的编辑空间超过了 150万个码位。新标准适用于图形字符信息的处理、交换、存储、传输、显示、输入和输出,并直接与 GB2312 80信息处理交换码所对应的事实上的内码标准相兼容。所以,新标准与现有的绝大多数操作系统、中文平台兼容,能支持现有的各种应用系统。、汉字机内码(也称内部码)由于国标码每个字

5、节的最高位都是“0”,与国际通用的标准 ASCII码无法区分。因此,计算机内部采用机内码来表汉字。计算机内部使用的汉字机内码的标准方案是将汉字国标码的 2个字节二进制代码的最高位置为 1,从而得到对应的汉字机内码。 如汉字 “啊 ”的机内码为 10110000B、 10100001B(即 B0H、 A1H)。 计算机处理字符数据时,当遇到最高位为 1的字节,便可将该字节连同其后续最高位也为 1的另一个字节看作 1个汉字机内码;当遇到最高位为 0的字节,则可看作一个 ASCII码西文字符,这样就实现了汉字、西文字符的共存与区分。 汉字交换码(也称国标码) 汉字交换码是指不同的具有汉字处理功能的计

6、算机系统之间在交换汉字信息时所使用的代码标准。自国家标准 GB2312 80 公布以来,我国一直延用该标准所规定的国标码作为统一的汉字信息交换码。GB2312 80 标准包括了 6763 个汉字 ,按其使用频度分为一级汉字 3755 个和二级汉字 3008 个。一级汉字按拼音排序,二级汉字按部首排序。此外,该标准还包括标点符号、数种西文字母、图形、数码等符号 682 个。区位码的区码和位码均采用从 01 到 94 的十进制,国标码采用十六进制的 21H 到 73H (数字后加 H 表示其为十六进制数)。区位码和国标码的换算关系是:区码和位码分别加上十进制数 32 。如“国”字在表中的 25 行

7、 90 列,其区位码为 2590 ,国标码是 397AH 。由于 GB2312 80 是 80 年代制定的标准,在实际应用时常常感到不够,所以,建议处理文字信息的产品采用新颁布的 GB18030 信息交换用汉字编码字符集,这个标准繁、简字均处同一平台,可解决间 GB 码与 BIG 5 码 间的字码转换不便的问题。汉字输入码(也称外码) 汉字输入方法很多,如区位、拼音、五笔字型等。不同输入法有自己的编码方案,所采用的编码方案统称为输入码。输入码进入机器后必须转换为机内码进行存储和处理。 汉字输入方法大体可分为:区位码(数字码)、音码、形码、音形码。区位码:优点是无重码或重码率低,缺点是难于记忆;

8、音码:优点是大多数人都易于掌握,但同音字多,重码率高,影响输入的速度;形码:根据汉字的字型进行编码,编码的规则较多,难于记忆,必须经过训练才能较好地掌握;重码率低音形码:将音码和形码结合起来,输入汉字,减少重码率,提高汉字输入速度;如,以全拼输入方案键入 “neng”,或以五笔字型输入方案 “ce”,都能得到 “能 ”这个汉字所对应的机内码。这个工作由汉字代码转换程序依靠事先编制好的输入码对照表完成转换。 汉字字形码 (字形存储码也称输出码) 字形存储码是指供计算机输出汉字(显示或打印)用的二进制信息,也称字模。通常,采用的是数字化点阵字模。 汉字字形码是一种用点阵表示字形的码,是汉字的输出形

9、式。它把汉字排成点阵。常用的点阵由 1616、 2424、 3232或更高。每一个点在存储器中用一个二进制位( bit )存储。例如,在 16 16 的点阵中,需 8 32 bit 的存储空间,每 8 bit 为 1 字节,所以,需 32 字节的存储空间; 2424点阵要占 72个字节(为什么?)。在相同点阵中,不管其笔划繁简,每个汉字所占的字节数相等。为了节省存储空间,普遍采用了字形数据压缩技术。所谓的矢量汉字是指用矢量方法将汉字点阵字模进行压缩后得到的汉字字形的数字化信息。所有不同的汉字字体的字形构成汉字库,一般存储在硬盘上,当要显示输出时,才调入内存,检索到要输出的字形送到显示器输出。各

10、码转换汉字交换码区位码+2020H汉字机内码汉字交换码+8080H区位码+A0A0H注意:一定先将区位码(十进制)转换成十六进制数,然后再进行运算。对应关系.汉字输入码 交换码(外部码内部码) 机内码 机内码向字形码转换机 显示输出或打印输出 ( )其他信息的编码 图像的表示 一幅图像可认为是由一个个像点构成的,这些像点称为像素。每个像素必须用若干二进制位进行编码,才能表示出现实世界中的五彩缤纷的图像。 当将图像分解成一系列像点、每个点用若干 bit表示时,我们就把这幅图象数字化了。 数字图像数据量特别巨大,假定画面上有 150000个点,每个点用 24个 bit来表示,则这幅画面要占用 45

11、0000个字节。如果想在显示器上播放视频信息,一秒钟需传送 25幅画面,相当与 11250000个字节的信息量。因此,用计算机进行图像处理,对机器的性能要求是很高的。 图像文件的后缀名有: bmp 、 gif 、 jpg 等;声音的表示 声音是一种连续变化的模拟量,我们可以通过 “模 /数 ”转换器对声音信号按固定的时间进行采样,把它变成数字量。一旦转变成数字形式,便可把声音储存在计算机中并进行处理了。 声音文件的后缀名有: wav 、 mp3 等;视频信息的数字化 视频信息可以看成连续变换的多幅图像构成,播放视频信息,每秒需传输和处理 25 幅以上的图像。视频信息数字化后的存储量相当大,所以需要进行压缩处理。 视频文件后缀名有: avi 、 mpg 等;

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号