第2章文本

上传人:ldj****22 文档编号:48883359 上传时间:2018-07-21 格式:PPT 页数:73 大小:821.50KB
返回 下载 相关 举报
第2章文本_第1页
第1页 / 共73页
第2章文本_第2页
第2页 / 共73页
第2章文本_第3页
第3页 / 共73页
第2章文本_第4页
第4页 / 共73页
第2章文本_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《第2章文本》由会员分享,可在线阅读,更多相关《第2章文本(73页珍藏版)》请在金锄头文库上搜索。

1、第2章 文本*1南京大学多媒体研究所内容内容一、编码一、编码 二、文本输入二、文本输入 三、文本处理三、文本处理 四、文本显示四、文本显示Date2南京大学多媒体研究所什么是文本(text)?o文本是计算机表示文字信息的一种媒体o文本是一个字符流,它由一连串的字符组成o文本处理过程:文本展现(阅读器)文本处理(文本处理软件) 文本输入其他 媒体电子 文本文本编辑(编辑器)格式化的 电子文本Date3南京大学多媒体研究所电子文本的两种形式o扫描文本n是纸介质文本经过扫描输入后得到的,实质上 是一种特殊的位图图像(bitmap)。o合成文本n也称为编码文本,它是基于特定字符集的、具 有上下文相关性

2、的一个字符流,每个字符均使 用编码表示。这是计算机中常用的文本形式Date4南京大学多媒体研究所文本的分类o按是否格式化分:n简单文本(plain text) / 丰富格式文本(rich text)o按结构分:n线性文本 / 超文本(hypertext)Date5南京大学多媒体研究所一、编码一、编码*6南京大学多媒体研究所几个编码标准几个编码标准oASCIIoISO8859-1oGB2312oGB12345oGBKoCJKoBIG5o UCSo Unicodeo UTF-8o UTF-16o UTF-32o GB18030Date7南京大学多媒体研究所ASCIIo计算机中使用得最广泛的西文编码

3、字符集: 美国标准信息交换码(American Standard Code for Information Interchange, 简 称ASCII码),后来被批准为ISO-646-US 标准oASCII字符集中:n96个可打印字符32个控制字符n采用7位二进制进行编码Date8南京大学多媒体研究所ASCIIASCII码码/ ISO-646-US/ ISO-646-US标准标准012345670 1 2 3 4 5 6 7 8 9 A B C D E FGB 1988-80 (ISO 646-CN) ¥Date9南京大学多媒体研究所ISO-646的本地化ISO-646-DK(丹麦) ISO-

4、646-DE(德国) Date10南京大学多媒体研究所ISO 646的不足o7位代码空间太小,o不同国家和地区使用不同的标准,难以兼容,o东亚地区使用的大字符集无法编码,Date11南京大学多媒体研究所扩充扩充ASCIIASCII字符集字符集C0C1GRGL单8 位代 码空 间1 Latin1 (West European) 2 Latin2 (East European) 3 Latin3 (South European) 4 Latin4 (North European) 5 Cyrillic 6 Arabic 7 Greek 8 Hebrew 9 Latin5 (Turkish) 10

5、Latin6 (Nordic) 按国家/地区分别编码。 ISO陆 续制定了十多个适用于不同国 家和地区(均为拉丁语系)的 扩充ASCII字符集(高位为1的 8位代码),称为ISO8859. Date12南京大学多媒体研究所ISO 8859 扩充ASCII字符集(举例)ISO-8859-2(East European) ISO-8859-1(West European) Date13南京大学多媒体研究所MS-Windows 的code pageo代码页实际上就是各个不同的字符集。微软公司在开发DOS和 Windows的各文种产品时,将各文种的字符集加以整理,并对每个 具体的代码页都赋以一个代号,

6、称作“代码页ID”。比如:CP1252代 码页是ISO 8859-1的扩充,是ISO 8859-1的超集Date14南京大学多媒体研究所汉字的编码汉字的编码o汉字(Chinese character, Han character, Hanzi)是记录汉语(国语,华语)的文字,属于 表意文字,它用符号直接表达词或词素。中文文本 的基本组成单位是汉字字符。o汉字的特点n数量大(我国汉字自古至今累计已超过7万字,国家语委 颁布的“现代汉语通用字表”包含7000汉字)n多个国家和地区使用:香港,台湾地区,以及日本、韩 国、朝鲜,新加坡,马来西亚等。n字形复杂,同音字多,异体字多。Date15南京大学多

7、媒体研究所汉字正形汉字正形o同一个宋体字有不同笔 画或不同结构的,选择 一个便于辨认,便于书 写的形体;o同一个字宋体和手写楷 书笔画结构不同的,宋 体尽可能接近手写楷书 ;不完全根据文字学的 传统。Date16南京大学多媒体研究所GB2312-1980GB2312-1980o1981年颁布,信息交换用汉字编码字符集基本 集。oGB2312字符集由三个部分构成n字母、数字和各种符号,包括拉丁字母、俄文 、日文平假名与片假名、希腊字母、汉语拼音 等共682个(统称为GB2312图形符号);n一级常用汉字,共3755个,按汉语拼音排列;n二级常用字,共3008个,因不太常用,所以按 偏旁部首排列。

8、Date17南京大学多媒体研究所GB2312-80的字符集及字符布局每一个汉字或符 号有一个确定的 位置,该位置的 区号和位号就是 这个汉字的“区位 码”。大20(14h)83(53h)区位码是2083,即 0010100,1010011 16进制表示为 14 53hDate18南京大学多媒体研究所GB2312-80汉字交换码首字节 尾字节 0x7E 0xA1 0xFE 0x81 0xFE 0xA1 GB2312汉字 (6763个汉字) 图形符号0x30 0x77 大34h73h0x200x20GB2312-80 字符集在 ISO 2022双8 位代码空间 中的位置例如, “大”字的国 标交换

9、码是: 0110100 1110011 即16进制的:34 73hDate19南京大学多媒体研究所GB2312-80汉字内码0x30 0x77 汉字交换码汉字机内码汉字机内码大B4hF3h“大”字的机内码为10110100,11110011(B4F3)为了在机内 区别于西文 编码, GB2312 汉字 字符集在双8 位代码空间 中映射到右 下角位置, 即在国标码 的基础上, 每个字节的 最高位置1Date20南京大学多媒体研究所GB12345-1990oGB2312-80是面向简体汉字的编码。o为了使用繁体汉字,特制订了繁体汉字字符集的国家标准(信 息交换用汉字编码字符集-辅助集GB12345

10、-1990) 。o兼容GB2312,含 717 个图形符号, 6866 个汉字n简体、繁体相同的汉字,编码保持不变,n对应1个繁体字的,替换为对应的繁体字,如繁体字“燈”,只对 应一个简体字“灯”。n对应多个繁体字的,替换为最常用的那个繁体字,其它对应繁 体字放在扩充区。如简体字“发”,对应“發”、“髮”2个 繁体字 。在“发展”一义时,用“發展”,在“头发”一义时用“頭髮”。再 如“复”字,在“复杂”一义时用“複雜”,在“反复”一义时用“反復 ”。这样的简体字有300多个。Date21南京大学多媒体研究所GB2312和GB12345的不足oGB2312汉字字数太少,无法满足一些特殊 应用的需

11、要:n人名、地名;n古籍整理、古典文献研究。o简体和繁体分属于2个字符集,在简、繁体 汉字同时使用时,很不方便。Date22南京大学多媒体研究所汉字内码扩展规范汉字内码扩展规范GBKGBKoGBK全称汉字内码扩展规范(1995年)n向下与 GB 2312 编码兼容n向上准备向ISO 10646.1 国际标准过渡,是一个承上 启下的标准。oGBK 规范收录了 ISO 10646.1 中的全部 CJK 汉 字和符号,并有所补充nGB 2312中的全部汉字(GBK/2)n其他CJK汉字和增补的汉字(GBK/3和GBK/4),共 21003个汉字n另外还有883个图形符号(GBK/1, GBK/5)D

12、ate23南京大学多媒体研究所CJK(中日韩)统一汉字字符集o所谓CJK统一汉字编码, 是指不论国家和地区,不论汉字的字 义有无区别,只要字形相同,该汉字就只有一个代码。oCJK字符集以现有各国和地区的标准字符集作为源字符集,将 其中的汉字按统一的认同规则进行认同甄别后,生成涵盖各 源字集并按东亚著名的四大字典(康熙字典、大汉和字典、汉 语大字典及大字源)的页码字位综合排序(按部首笔画数目 )排序,构成共27,484个汉字组成的大字符集。o经过中、日、韩、越、新的力争,国际标准化组织在Unicode 编码体系中给汉字划出了9万多个码位,各国将对CJK汉字字符 集作进一步的扩充。Date24南京

13、大学多媒体研究所GBK汉字编码的特点o汉字数目多,共21003个;o简体和繁体汉字在同一个字符集中;o包含了中、日、韩认同的全部CJK汉字;o双字节编码,第1字节的最高位必为“1”,第2字节 的最高位不一定是“1”;o与GB2312-80保持向下兼容;o与ISO10646中的汉字字汇兼容,代码不兼容Date25南京大学多媒体研究所GBK的代码空间以及字符分布图形符号CJK汉字增补汉字总计 23940 个码位 ,共收入 21003 个 汉字和883图形符 号,未使用的区域 作为用户自定义区Date26南京大学多媒体研究所BIG5汉字编码oBIG 5汉字编码是我国台湾地区计算机系统 中使用的汉字编

14、码字符集。o包含 420 个图形符号和 13070 个汉字( 不使用简化汉字)。o编码范围是 0x8140-0xFE7E、0x81A1- -0xFEFE,n0xA440-0xF97E、0xA4A1-0xF9FE 是汉 字区。Date27南京大学多媒体研究所BIG5BIG5汉字编码空间汉字编码空间Date28南京大学多媒体研究所GB2312GBKBIG5GB2312, GBK, BIG5 代码空间的比较Date29南京大学多媒体研究所通用编码字符集通用编码字符集UCSUCSo需求:n各个国家和民族都有自己的语言和文字,现代人类使用 的语言有6800种。n希望所有这些语言文字都能方便地进行计算机通

15、信,特 别是允许能同时使用任意多种语言文字o例如: n中文简体:南京大学计算机系n中文繁体:南京大学計算機系n日文:今日天気n俄文:n俄文:Date30南京大学多媒体研究所ISO/IEC 10646 (UCS)oISO/IEC 10646 即“通用编码字符集”(Universal Coded Character Set,简称UCS), 相应的工业标准称为 “Unicode”,两者完全兼容。o设计目标:n实现所有字符在同一字符集中等长编码、同等使用的真正 多文种信息处理。o1993、2000分别发布标准的第部分(ISO/IEC 10646.1:1993和 10646.1:2000),对应的中国国

16、家标准是GB 13000.1。第2部分 (ISO/IEC 10646.2)也已发布。Date31南京大学多媒体研究所UCS的体系结构在 UCS 中每一个字符用 4 个字节编码,对应着每个 字符在编码空间的组号、平面号、行号和字位号。Date32南京大学多媒体研究所UCS 的 代 码 空 间基本多文种 平面(BMP)辅助平面专用平面Date33南京大学多媒体研究所UCSUCS 的的 0000 组组Date34南京大学多媒体研究所UCSUCS 的的 BMPBMP 平面平面Date35南京大学多媒体研究所BMPBMP 平平 面面 的的 拼拼 音音 文文 字字 区区Date36南京大学多媒体研究所UCS的两种编码形式(1)肆八位 正则形式,记作 UCS-4比如: 汉字“一”的正则形式为 00 00 4E 00(缺点:浪费存储空间

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号