了解文本媒体的编码方式

上传人:第*** 文档编号:48806730 上传时间:2018-07-20 格式:PPT 页数:38 大小:1.27MB
返回 下载 相关 举报
了解文本媒体的编码方式_第1页
第1页 / 共38页
了解文本媒体的编码方式_第2页
第2页 / 共38页
了解文本媒体的编码方式_第3页
第3页 / 共38页
了解文本媒体的编码方式_第4页
第4页 / 共38页
了解文本媒体的编码方式_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《了解文本媒体的编码方式》由会员分享,可在线阅读,更多相关《了解文本媒体的编码方式(38页珍藏版)》请在金锄头文库上搜索。

1、任务2 了解文本媒体的编码方式 5.2.1 文本媒体的分类和表示 5.2.2 常用的编码方式 5.2.3 文本的编辑和处理 文本媒体的分类和表示 文字是一种书面语言,它由一系列字符组 成,包含中文和西文。文字信息在计算机中称为“文本”,它是计 算机中最常用的一种数字媒体,在计算机 中采用二进制编码表示。文本的分类 根据它们是否具有排版格式,文本可分为简单文本、丰 富格式文本和超文本三大类。l(1)简单文本简单文本又称为纯文本,是由一连串字符或汉字的编 码组成,它几乎不包含任何其他的格式信息和结构信 息,其文件后缀名是.txt。Windows附件中的记事 本程序所编辑处理的文本就是简单文本。简单

2、文本(纯文本 )本 书 由 南 京 大 学 出 版 社 ( P u b l i s h i n gH o u s e o f N a n j i ng U n i v e r s i t y ) 出 版文 本例:本书由南京大学出版社(Publishing House of Nanjing University)出版文 本 在 计 算 机 中 的 表 示B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 6720 48 6F 75 73 65 20 6F 66 20 4

3、E 61 6E 6A 69 6E67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文本的分类(2)丰富格式文本l在日常生活中,为了文本能美观、醒目的展现给用户 ,人们通常需要对纯文本进行加工、排版,这样的文 本就是“丰富格式文本”,如微软公司的Word软件所 处理的DOC文件、Adobe公司的Acrobat软件所处 理的PDF文件等。l在丰富格式文本中,除正文之外,还有许多用来说明 文本的版面结构、内容组织、文字属性的信息,这些 信息被称为“标记”,这些标记及其使用规则被称为“标 记语言”。不同的软件使用的标记语言并不相同,相互 之间不一定兼

4、容。为了便于丰富格式文本在不同的软 件和系统中互换使用,一些公司还联合提出了一种公 用的中间格式,称为RTF格式。丰富格式文本本书由南京大学出版社(Publishing House of Nanjing University)出版举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中 使用HTML语言描述为: 本书由南京大学出版社(Publishing House of Nanjing University)出版用一对指出的是标记,如 和 等,用于说明排版的格式和文字属性,它 们不属于正文内容正文内容文本的分类超文本:它是用超链接的方法,将各种不同空间 的文字信息组织在一起的

5、网状文本。超链接是有向的,起点位置称为链源,它可以是 网页中的一个标题、一个句子、一副画等;目的 地称为链宿,它可以是另一个网页(在本网站或 其他网站中),也可以是同一个网页中的其他部 分。超文本的格式有很多,目前最常使用的是超文本 标记语言(Hyper Text Markup Language ,HTML) 及丰富文本格式(Rich Text Format,RTF)。超文本(www网页)WWW网页按照其内容的关联性相互进行链接,网 页就是典型的 “超文本”超文本也属于丰富格式文本网页A网页B网页C网页D网页E网页F网页G网页Ha1a2b2c2f1d1c1b1e1g1h1a3“超链”实际上就是

6、一个 指针,用于指向其他网页 ,也可以指向同一网页中 的其他部分 超链是有向的,起点位置称为 链源,它可以是网页中的一个 标题、一句句子、一个关键词 、一幅画、一个图标等小结:文本的分类文本 类类型特点 在计计算机内的表示文件 扩扩展名用途简单简单 文本没有字体、字号和版 面格式的变变化,文本 在页页面上逐行排列, 也不含图图片和表格由一连连串与正文内容对对 应应的字符的编码编码 所组组成 ,几乎不包含任何其他的 格式信息和结结构信息.txt网上聊天 短信 文字录入 OCR输入丰富 格式 文本( 线线性 文本)有字体、字号、颜颜色 等变变化,文本在页页面 上可以自由定位和布 局,还还可插入图图

7、片和 表格除了与正文对应对应 的字符 编码编码 之外,还还使用某种“ 标记语标记语 言”所规规定的一些 标记标记 来说说明该该文本的文 字属性和排版格式等.doc .rtf .htm .html .pdf公文 论论文 书稿 网页丰富 格式 文本( 超文 本)除上述特征外,文本 中还还含有超链链,使文 本呈现为现为 一种网状结结 构同上,但还应还应 包含用于指 出“链链源”和“链链宿”的标标 记记.doc .rtf .htm .html .pdf .hlp同上,以 及软软件的 联联机文档( 帮助文件)文本的输入 使用计算机制作文本,首先要向计算机输入该文 本所包含的字符信息。l人工输入 即通过键

8、盘完成信息输入,某些场合也会使用语音输 入和联机手写输入等方法。人工输入速度慢、成本高、使用方便。l印刷体自动识别技术 该技术是将纸介质上的文本通过识别技术自动转换为 文字的编码。这种输入方式速度快、效率高,通常应用于需要大批 量输入文字资料的档案管理、图书情报等应用领域。文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入 技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别!汉字的键盘输入 汉字与键盘上的键无法一一对应,因此必 须使用几个键来表示一个汉字,这就称为汉 字的“键盘输入编码” 优秀的汉字键盘输入编码应具有的特点:l

9、易学习、易记忆l效率高(平均击键次数较少)l重码少l容量大(可输入的汉字字数多)汉字键盘输入方法的比较类类型原理举举例优优点缺点数字 编码编码使用一串数字来表示 汉汉字电报码电报码 区位码码仅仅使用10个数 字键键难记忆难记忆字音 编码编码把汉语汉语 的拼音作为为 汉汉字的输输入编码编码智能ABC 紫光华华宇 微软软拼音输输入简单简单 易学,适 合于非专业专业 人 员员重码码多,需增加选择选择 操作,不会汉语汉语 拼音 或不知道读读音时时无法 使用 字形 编码编码把汉汉字的部件或笔画 作为码为码 元,按照汉汉 字结结构及其切分规规 则则作为编码为编码 依据, 确定每个汉汉字的输输入 代码码五笔

10、字形 表形码码 郑码郑码重码码少、输输入 速度较较快,适 合于专业录专业录 入员员、打字员员 使用缺乏统统一的规规范,编编 码规则码规则 不易掌握音形 编码编码 (或形音 编码编码 )采用字音及字形两种属性作为码为码 元的汉汉字编码输编码输 入方法粤音输输入法同上同时时要掌握音、形两种取码码方法或规则规则 ,对对普通用户户比较较困难难文本的输出 文本的输出通常分为打印输出和屏幕输出 。由于存放在计算机存储器中的文本是数字 形式的、不可见的,因此,无论是打印还 是屏幕显示,它们都需要专门的软件进行 文本格式的翻译和显示。承担文本输出任务的软件称为阅读器或浏 览器,如微软的Word、IE浏览器,

11、Adobe公司的Adobe Reader等。输出过程中字形的生成 过程:l先根据字符的字体确定相应的字库(font),l再按照该字符的代码从字库中取出该字符的形状描述 信息l然后按形状描述信息生成字形,并按照字号大小及有 关属性(粗体、斜体、下横线)将字形作必要的变换l最后将变换得到的字形放置在页面的指定位置处2种不同的字库:点阵 描述轮廓 描述轮廓点直线二次曲线西文字符的编码 西文字符是由拉丁字母、数字、标点符号 及一些特殊符号组成目前在计算机中使用最广泛的是标准 ASCII字符集及其编码。ASCII码又称为美国标准信息交换码,国 际上通用的是7位二进制数版本,共128 个元素。西文字符的编

12、码 0 1 2 3 4 5 6 70 1 2 3 4 5 6 7 8 9 A B C D E Fb6b5b4b3b2b1b0标准ASCII字符集及其编码32个控制字符,不可打印空格通常一个ASCII码值占一个字节(8个二进制位),每个字节 中多余出来的一位(最高位)可设为“0”,用作数据传输时的 奇偶校验。汉字的编码 汉字的历史源远流长,世界四分之一的人 口使用汉字,汉语被联合国列为法定六种 正式语言和工作语言之一。中文文本的基本组成单位是汉字,汉字数 量大,同音、异体字多,它们在计算机内 部的表示与处理则是一个非常重要的问题 。常用的汉字编码字符集国家标准GB2312-1980汉字扩充规范

13、GBK (已被GB 18030取代)国家标准GB18030-2005港澳台使用的汉字编码字符集CNS 11643 (BIG 5,俗称“大五码”)UCS/Unicode多文种大字符集lUnicode的UTF-8lUnicode的UTF-16GB2312汉字编码 GB2312汉字编码是我国在1981年颁布的第一个 国家标准在该标准中有3755个一级常用汉字(按汉语拼音 排列)、3008个二级常用汉字(按偏旁部首排列 )和682个非汉字字符。一级汉字 (3755个)二级汉字 (3008个)(扩充使用)字母、数字和各种符号19423位号 1 9 1655 568794区 号(按汉语拼音排列)(按偏旁部

14、首排列)共6763个汉字和 682个符号,每个汉字和符号都有一 个确定位置拉丁字母、俄文 、日文平假名与 片假名、希腊字 母、汉语拼音等 共682个GB2312汉字编码GB2312的所有字符分布在一个94行94列的 二维平面内,行号称为区号,列号称为位号,各 用两位十进制数表示。在计算机内部每个汉字采用2个字节来表示,并 把每个字节的最高位均规定为“1”。这种高位均 为“1”的双字节汉字编码就称为GB2312汉字的 “机内码”,又称为“内码”。目前PC机中GB2312汉字不论用何种方法录入 ,在机器内部都统一用机内码表示。GB2312汉字的编码每一个GB2312汉字使用16位(2个字 节)表示

15、为了与ASCII字符相区别,每个字节的 最高位均为“1”例如: “南”字的代码是11000100 11001111(用十六进制表示为C4CF) 11第1字节第2字节X X X X X X XX X X X X X XGBK汉字内码扩充规范 GB2312的不足:l汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整 理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):l在GB2312基础上,增加了1万多汉字(包括繁体字)和符 号l共有21003个汉字和883个图形符号,如“計算機”、冃 、冄、円、冇等繁体字和生僻字 l与GB8312保持向下兼容,也使用双字节表示,第1字节 最高位必须为“1”:1X第1字节第2字

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 外语文库 > 英语学习

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号