第2章文本课件培训讲学

上传人:yuzo****123 文档编号:140276771 上传时间:2020-07-28 格式:PPT 页数:73 大小:1.24MB
返回 下载 相关 举报
第2章文本课件培训讲学_第1页
第1页 / 共73页
第2章文本课件培训讲学_第2页
第2页 / 共73页
第2章文本课件培训讲学_第3页
第3页 / 共73页
第2章文本课件培训讲学_第4页
第4页 / 共73页
第2章文本课件培训讲学_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《第2章文本课件培训讲学》由会员分享,可在线阅读,更多相关《第2章文本课件培训讲学(73页珍藏版)》请在金锄头文库上搜索。

1、2020/7/28,1,第2章 文本,2020/7/28,2,内容,一、编码 二、文本输入 三、文本处理 四、文本显示,2020/7/28,3,什么是文本(text)?,文本是计算机表示文字信息的一种媒体 文本是一个字符流,它由一连串的字符组成 文本处理过程:,其他媒体,2020/7/28,4,电子文本的两种形式,扫描文本 是纸介质文本经过扫描输入后得到的,实质上是一种特殊的位图图像(bitmap)。 合成文本 也称为编码文本,它是基于特定字符集的、具有上下文相关性的一个字符流,每个字符均使用编码表示。这是计算机中常用的文本形式,2020/7/28,6,一、编码,2020/7/28,7,几个编

2、码标准,ASCII ISO8859-1 GB2312 GB12345 GBK CJK BIG5,UCS Unicode UTF-8 UTF-16 UTF-32 GB18030,2020/7/28,8,ASCII,计算机中使用得最广泛的西文编码字符集:美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码),后来被批准为ISO-646-US标准 ASCII字符集中: 96个可打印字符32个控制字符 采用7位二进制进行编码,2020/7/28,9,ASCII码/ ISO-646-US标准,2020/7/28,10

3、,ISO-646的本地化,ISO-646-DK (丹麦),ISO-646-DE (德国),2020/7/28,11,ISO 646的不足,7位代码空间太小, 不同国家和地区使用不同的标准,难以兼容, 东亚地区使用的大字符集无法编码,,2020/7/28,12,扩充ASCII字符集,单8位代码空间,2020/7/28,13,ISO 8859 扩充ASCII字符集(举例),ISO-8859-2 (East European),ISO-8859-1 (West European),2020/7/28,14,MS-Windows 的code page,代码页实际上就是各个不同的字符集。微软公司在开发D

4、OS和Windows的各文种产品时,将各文种的字符集加以整理,并对每个具体的代码页都赋以一个代号,称作“代码页ID”。比如:CP1252代码页是ISO 8859-1的扩充,是ISO 8859-1的超集,2020/7/28,15,汉字的编码,汉字(Chinese character, Han character, Hanzi)是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素。中文文本的基本组成单位是汉字字符。 汉字的特点 数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字) 多个国家和地区使用:香港,台湾地区,以及日本、韩国、朝鲜,

5、新加坡,马来西亚等。 字形复杂,同音字多,异体字多。,2020/7/28,16,汉字正形,同一个宋体字有不同笔画或不同结构的,选择一个便于辨认,便于书写的形体; 同一个字宋体和手写楷书笔画结构不同的,宋体尽可能接近手写楷书;不完全根据文字学的传统。,2020/7/28,17,GB2312-1980,1981年颁布,信息交换用汉字编码字符集基本集。 GB2312字符集由三个部分构成 字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号); 一级常用汉字,共3755个,按汉语拼音排列; 二级常用字,共3008个,因不太常用,所以按

6、偏旁部首排列。,2020/7/28,18,GB2312-80的字符集及字符布局,每一个汉字或符号有一个确定的位置,该位置的区号和位号就是这个汉字的“区位码”。,大,20(14h),83(53h),区位码是2083,即 0010100,1010011 16进制表示为 14 53h,2020/7/28,19,GB2312-80汉字交换码,0 x20,0 x20,GB2312-80字符集在ISO 2022双8位代码空间中的位置,例如, “大”字的国标交换码是: 0110100 1110011即16进制的: 34 73h,2020/7/28,20,GB2312-80汉字内码,“大”字的机内码为 101

7、10100,11110011 (B4F3),为了在机内区别于西文编码,GB2312 汉字字符集在双8位代码空间中映射到右下角位置,即在国标码的基础上,每个字节的最高位置1,2020/7/28,21,GB12345-1990,GB2312-80是面向简体汉字的编码。 为了使用繁体汉字,特制订了繁体汉字字符集的国家标准(信息交换用汉字编码字符集-辅助集GB12345-1990) 。 兼容GB2312,含 717 个图形符号, 6866 个汉字 简体、繁体相同的汉字,编码保持不变, 对应1个繁体字的,替换为对应的繁体字,如繁体字“燈”,只对应一个简体字“灯”。 对应多个繁体字的,替换为最常用的那个繁

8、体字,其它对应繁体字放在扩充区。如简体字“发”,对应“發”、“髮”2个 繁体字。在“发展”一义时,用“發展”,在“头发”一义时用“頭髮”。再如“复”字,在“复杂”一义时用“複雜”,在“反复”一义时用“反復”。这样的简体字有300多个。,2020/7/28,22,GB2312和GB12345的不足,GB2312汉字字数太少,无法满足一些特殊应用的需要: 人名、地名; 古籍整理、古典文献研究。 简体和繁体分属于2个字符集,在简、繁体汉字同时使用时,很不方便。,2020/7/28,23,汉字内码扩展规范GBK,GBK全称汉字内码扩展规范(1995年) 向下与 GB 2312 编码兼容 向上准备向IS

9、O 10646.1 国际标准过渡,是一个承上启下的标准。 GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充 GB 2312中的全部汉字(GBK/2) 其他CJK汉字和增补的汉字(GBK/3和GBK/4),共21003个汉字 另外还有883个图形符号(GBK/1, GBK/5),2020/7/28,24,CJK(中日韩)统一汉字字符集,所谓CJK统一汉字编码, 是指不论国家和地区,不论汉字的字义有无区别,只要字形相同,该汉字就只有一个代码。 CJK字符集以现有各国和地区的标准字符集作为源字符集,将其中的汉字按统一的认同规则进行认同甄别后,生成涵盖各源字集并按东

10、亚著名的四大字典(康熙字典、大汉和字典、汉语大字典及大字源)的页码字位综合排序(按部首笔画数目)排序,构成共27,484个汉字组成的大字符集。 经过中、日、韩、越、新的力争,国际标准化组织在Unicode编码体系中给汉字划出了9万多个码位,各国将对CJK汉字字符集作进一步的扩充。,2020/7/28,25,GBK汉字编码的特点,汉字数目多,共21003个; 简体和繁体汉字在同一个字符集中; 包含了中、日、韩认同的全部CJK汉字; 双字节编码,第1字节的最高位必为“1”,第2字节的最高位不一定是“1”; 与GB2312-80保持向下兼容; 与ISO10646中的汉字字汇兼容,代码不兼容,2020

11、/7/28,26,GBK的代码空间以及字符分布,图形符号,CJK汉字,增补汉字,总计 23940 个码位,共收入 21003 个汉字和883图形符号,未使用的区域作为用户自定义区,2020/7/28,27,BIG5汉字编码,BIG 5汉字编码是我国台湾地区计算机系统中使用的汉字编码字符集。 包含 420 个图形符号和 13070 个汉字(不使用简化汉字)。 编码范围是 0 x8140-0 xFE7E、0 x81A1-0 xFEFE, 0 xA440-0 xF97E、0 xA4A1-0 xF9FE 是汉字区。,2020/7/28,28,BIG5汉字编码空间,2020/7/28,29,GB2312

12、,GBK,BIG5,GB2312,GBK,BIG5代码空间的比较,2020/7/28,30,通用编码字符集UCS,需求: 各个国家和民族都有自己的语言和文字,现代人类使用的语言有6800种。 希望所有这些语言文字都能方便地进行计算机通信,特别是允许能同时使用任意多种语言文字 例如: 中文简体:南京大学计算机系 中文繁体:南京大学計算機系 日文:今日天気 俄文: 俄文:,2020/7/28,31,ISO/IEC 10646 (UCS),ISO/IEC 10646 即“通用编码字符集”(Universal Coded Character Set,简称UCS), 相应的工业标准称为“Unicode”

13、,两者完全兼容。 设计目标: 实现所有字符在同一字符集中等长编码、同等使用的真正多文种信息处理。 1993、2000分别发布标准的第部分(ISO/IEC 10646.1:1993和10646.1:2000),对应的中国国家标准是GB 13000.1。第2部分(ISO/IEC 10646.2)也已发布。,2020/7/28,32,UCS的体系结构,在 UCS 中每一个字符用 4 个字节编码,对应着每个字符在编码空间的组号、平面号、行号和字位号。,2020/7/28,33,UCS的代码空间,基本多文种平面(BMP),辅助平面,专用平面,2020/7/28,34,UCS的00 组,2020/7/28

14、,35,UCS的BMP 平面,2020/7/28,36,BMP 平 面 的 拼 音 文 字 区,2020/7/28,37,UCS的两种编码形式,(1)肆八位 正则形式,记作 UCS-4 比如: 汉字“一”的正则形式为 00 00 4E 00(缺点:浪费存储空间,也不便于在网络上传输。) (2)双八位 也称为BMP 形式,记作 UCS-2仅适用于基本多文种平面。如,“一”的双八位形式为4E00;控制字符ESC为001B。 (省略组号和平面号(均为 00H) ,形成了一个双字节编码的字符集,它是UCS的子集),2020/7/28,38,UCS的变形显现形式之一 UTF-8,为了与原8-bit系统保

15、持向下兼容,UCS还可以采用8位编码,即采用单字节表示ASCII字符,这种可变长编码称为“UTF-8”(UCS Transformation Form 8) UTF8(可变长形式编码), 单字节: ASCII字符(from 20 to 7E) 双字节: 2万多汉字 四字节:扩充汉字 可以保持与传统ASCII文本的兼容性。,2020/7/28,39,UCS的变形显现形式之二 UTF-16,为了扩大字符集的容量,在UCS文本中还允许插入一些4字节的UCS-4字符. 在BMP平面中保留了2个有1024个位置的块(D800 到 DFFF),这些位置不能用来表示任何符号, 从每一块中各选一个数字所组成的

16、这些数字对,可用来表示多达100万个UCS-4字符。 这种编码方式面向双字节,允许4字节编码,称为“UTF-16”( UCS Transformation Form 16 ),这是一种处理效率与存储容量折中的编码方案。,2020/7/28,40,Unicode的应用,Unicode给全世界各个国家和地区使用的每个字符提供了一个唯一的编码 Unicode标准已经被IBM, Microsoft, Apple, HP, Oracle, SAP, Sun, Sybase和其它许多公司所采用,最新的许多软件标准都需要Unicode,例如XML, Java, CORBA 3.0, WML等,许多操作系统、所有最新的浏览器和许多其他产品都支持Unicode。 Unicode标准的出现和采用,是近些年来全球软件技术最重要的发展趋势之一。,2020/7/28,41,UCS/Unicode与汉字编码 GB18030-2000,与现有的绝大多数汉字操作系统、中

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号