计算机导论第五讲字符编码及汉字输入方法ppt课件

上传人:bin****86 文档编号:55805600 上传时间:2018-10-06 格式:PPT 页数:34 大小:370.50KB
返回 下载 相关 举报
计算机导论第五讲字符编码及汉字输入方法ppt课件_第1页
第1页 / 共34页
计算机导论第五讲字符编码及汉字输入方法ppt课件_第2页
第2页 / 共34页
计算机导论第五讲字符编码及汉字输入方法ppt课件_第3页
第3页 / 共34页
计算机导论第五讲字符编码及汉字输入方法ppt课件_第4页
第4页 / 共34页
计算机导论第五讲字符编码及汉字输入方法ppt课件_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《计算机导论第五讲字符编码及汉字输入方法ppt课件》由会员分享,可在线阅读,更多相关《计算机导论第五讲字符编码及汉字输入方法ppt课件(34页珍藏版)》请在金锄头文库上搜索。

1、,1,第三章 字符编码及汉字输入方法,3.1 英文字符集与编码全部大写、小写英文字母、10个阿拉伯数字、英文标点符号、以及其它常用符号共同组成英文字符集,并进行编码,称为ASCII(美国标准交换代码集)码。 American Standard Code of International Interchange标准ASCII字符集共有128个符号,编码为0至127。扩展ASCII码字符集有256个符号,即在标准ASCII码字符集之后,增加了128个符号。显然,一个ASCII码用二进制表示最多为8bits,刚好用一个字节存贮。,(1) 前32个ASCII码为控制字符(不可显示字符)NULL(空字符

2、) 0 CR或ENTER(回车键) 13LF(换行) 10 (2) 英文字母大写A: 65 90 小写az: 97 122 (3) 数字字符 0,1,9 : 48 57 (4) 空格键 ASCII码为32,常用ASCII字符如下:,一、汉字GB2312-80字符集汉字是一种象形文字,其字数之多居世界各国文字首位。目前通用的汉字,按1979年版新华字典计算约12,000个,按1990年版汉语大字典计算为54,678个。而日常生活中最常用的汉字也有大约3,500个。为了规范文字以适应计算机信息处理的需要,国家技术监督局于1980年颁布了国家标准信息交换用汉字编码字符集基本集,即国标GB231280

3、,作为我国汉字系统必须遵守的国家规范。,3.2 GB2312-80中文字符集与编码,国标GB231280共收汉字、字母和图形等符号7445个,按94行94列排列在一张大码表中。其行号称为区号,列号称为位号。国标GB231280中的全部符号包括: (1)一般符号202个。包括:标点、间隔符、运算符、制表符等。 (2)复合型序号60个,包括:和各20个,和各10个。 (3)数字22个。包括数字09,罗马数字I。 (4)大小写英文字母52个、希腊字母48个、俄文字母66个。日文假名169个。,(5)汉语拼音符号26个。 (6)汉语注音字母37个。 (7)汉字6763个。其中,一级汉字3755个,二级

4、汉字3008个。国标GB231280中非,非汉字符号存放在第1区到9区。一级汉字存放在第16区到55区,按拼顺序排列,同音字按起笔横、竖、撇、点、折存放。二级汉字存放在第56到87区,按部首顺序排列。,二、汉字编码 1. 区位码: 一个汉字可由区号和位号唯一决定,称为汉字的区位号码。使用时,先指定是区号,然后指定位号。区号与位号都从1开始编号,194。例: 汉字啊(第一个汉字),存放在16区,第1位,其区位码为(16,01)。,2. 国标码:将区位码中的区号和位号分别加上十进制数32,形成一个2字节编码,即第1字节为:区号32,第2字节为位号32。如:汉字啊的国标码为 (48, 33)。 3.

5、 内码:一个汉字字符存储在计算机的存储器中的编码,其作用与ASCII码相似。内码也是一个两字节编码,编码方法如下:第1字节区号+160,第2字节=位号+160如:汉字啊的内码是(176, 161),区位码/国标码/内码转换实例:,例1: 某汉字在GB2312-80码表中位于30区19位,试求该汉字的国标码与内码。 解:国标码为区号、位号分别加32,故对应国标码是(30+32, 19+32)=(62, 51)内码为区号、位号分别加160,故对应内码是(30+160, 19+160)=(190, 179)=(-66, -77)1字节补码,例2: 某汉字的两字节内码的存储顺序用十六进制表示为(C9H

6、, BEH), 试求该汉字的区位码。 解:内码减去160得区位码,故对应的区位码是(C9H-160, BEH-160)=(C9H-A0H, BEH-A0H)=(29H, 1EH)=(41, 31) 即该汉字在GB2312-80码表中位于41区第31位。,3.3 中文大字符集,一、GBK字符集 全称汉字内码扩展规范(GBK),英文名称 Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化技术委员会 1995 年 12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司 1995 年 12 月 15 日联合以技监标函 1995

7、229 号文件的形式,将它确定为技术规范指导性文件,发布和实施。这一版的 GBK 规范为 1.0 版。GB 即“国标”,K 是“扩展”的汉语拼音第一个字母。GBK 亦采用双字节表示,总体编码范围为 8140H-FEFEH,首字节在 81H-FEH 之间,尾字节在 40H-FEH 之间。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。它向下兼收了GB2312以及台湾的BIG-5.,推荐阅读网址: http:/ Windows 95 简体中文版开始,系统采用 GBK 代码。 二、GB18030后来少数民族也要用电脑了,

8、于是我们再扩展,又加了几千个新的少数民族的字,GBK 扩成了 GB18030。从此之后,中华民族的文化就可以在计算机时代中传承了。,什么是DBCS?DBCS(Double Byte Character Set 双字节字符集)。DBCS最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,因此他们写的程序为了支持中文处理,必须要注意字串里的每一个字节的值,如果这个值是大于127(7FH)的,那么就认为一个双字节字符集里的字符出现了。 推荐阅读网址: http:/ 国际标准化字符集UNICODE,ISO (International Standard Organization)

9、重新搞一个包括了地球上所有文化、所有字母和符号的编码,称为”Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “UNICODE”。 UNICODE编码也是DBCS, 总共可以组合出65535不同的字符,这大概已经可以覆盖世界上所有文化的符号。如果还不够也没有关系,ISO已经准备了UCS-4方案,就是四个字节来表示一个字符,这样我们就可以组合出21亿个不同的字符出来(最高位有其他用途)!,ASCII里的那些“半角”字符,UNICODE 包持其原编码不变,只是将其长度由原来的8位扩展为16位(第一字节填0),而其他文化和语言的字符则全

10、部重新统一编码。由于”半角”英文符号只需要用到低位,所以其高 8位永远是,即只包括标准ASCII码。从 UNICODE 开始,无论是半角的英文字母,还是全角的汉字,它们都是统一的”一个字符”!同时,也都是统一的”两个字节”,请注意”字符”和”字节”两个术语的不同, “字节”是一个8位的物理存贮单元,而“字符”则是一个文化相关的符号。,UNICODE 在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过查表来进行。从 Windows NT

11、 开始,MicroSoft 把它们的操作系统改了一遍,把所有的核心代码都改成了用 UNICODE 方式工作的版本,从这时开始,WINDOWS 系统终于无需要加装各种本土语言系统,就可以显示全世界上所有文化的字符。,UNICODE 来到时,一起到来的还有计算机网络的兴起,UNICODE 如何在网络上传输也是一个必须考虑的问题,于是面向传输的众多 UTF(UCS Transfer Format)标准出现了,顾名思义,UTF8就是每次8个位传输数据,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要过一些算法和规则来转换。 在网络里传递信息时

12、有一个很重要的问题,就是对于数据高低位的解读方式,一些计算机是采用低位先发送的方法,例如我们PC机采用的 INTEL 架构,而另一些是采用高位先发送的方式,在网络中交换数据时,为了核对双方对于高低位的认识是否是一致的,采用了一种很简便的方法,就是在文本流的开始时向对方发送一个标志符如果之后的文本是高位在位,那就发送”FEFF”,反之,则发送”FFFE”。,Unicode转换为UTF-8的方法 UNICODE: 0000 007F UTF-8: 0xxxxxxx (2) UNICODE: 0080 07FFUTF-8: 110xxxxx 10xxxxxx (3) 0800 FFFFUTF-8:1

13、110xxxx 10xxxxxx 10xxxxxx,2.3 字符存储、显示与打印原理 一、字符信息的存储 1. 英文字符存储:主要以ASCII码方式存于存储器,一个字符用一个ASCII码,占用1个字节,也可能采用两字节编码来存储,如:UNICODE编码。 2. 中文字符存储:一个中文字符占用2字节存储器,编码采用GB2312-80内码、GBK或者UNICODE。 二、字符显示与打印原理,显示和打印字符时,计算机必须获得字符的图象信息。存储字符图象信息的数据文件称为字库文件,简称字库计算机在显示或打印字符时,首先得到字符的编码(如:ASCII码或内码),然后查找显示或打印设置的字体所对应的字库,

14、根据字符编码在字库文件中找到该字符的图象数据,取出图象数据并描出图形到显示屏上或打印机中。根据图象数据的存储方式,可以分为点阵字库与矢量字库,其原理分别介绍如下。,1. 点阵字库点阵显示技术是计算机系统最基本、最快速的显示方法。因为我们的显示屏采用的是象素打点显示方式,即由很多小点组成的矩形方阵,构成了整个屏幕。显示器的分辨率反映了显示屏象素的多少。目前,在常用的PC机中的,点阵字型主要用于DOS操作系统、计算机启动时的界面、CMOS参数设置界面等,其标准分辨率为640(宽)480(高)点阵。显示和打印常用的点阵如下表所示:,1616点阵,有点与无点用一个二进制位1/0表示,每行有16个点,因

15、此需要16个bit,即2字节;总共16行,因此一个1616点阵的汉字图象共需32个字节存储空间。,思考: (1)存储一个816点阵字符图象数据需要多少字节? 答:16字节 (2)在标准640480分辨率的DOS屏幕上,每行可以显示多少个ASCII字符或多少个内码字符?总共可以显示多少行?答:80个ASCII码字符/行或40个内码字符/行共25行!(因为有80线用于系统提示行和行间隔) 极限是30行,2. 矢量字库采用笔划、线条坐标数据表示一个字符的图象。矢量字库也叫做向量字库或曲线字库。目前,矢量字库在WINDOWS平台上得到广泛使用,WINDOWS平台使用的TrueType字体,就是典型的矢量字库。 3. 点阵与矢量字库的对比,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号