多媒体技术与信息处理-电子教案-杨帆 第03章 文本信息处理技术

上传人:E**** 文档编号:89412587 上传时间:2019-05-24 格式:PPT 页数:62 大小:4.57MB
返回 下载 相关 举报
多媒体技术与信息处理-电子教案-杨帆 第03章 文本信息处理技术_第1页
第1页 / 共62页
多媒体技术与信息处理-电子教案-杨帆 第03章 文本信息处理技术_第2页
第2页 / 共62页
多媒体技术与信息处理-电子教案-杨帆 第03章 文本信息处理技术_第3页
第3页 / 共62页
多媒体技术与信息处理-电子教案-杨帆 第03章 文本信息处理技术_第4页
第4页 / 共62页
多媒体技术与信息处理-电子教案-杨帆 第03章 文本信息处理技术_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《多媒体技术与信息处理-电子教案-杨帆 第03章 文本信息处理技术》由会员分享,可在线阅读,更多相关《多媒体技术与信息处理-电子教案-杨帆 第03章 文本信息处理技术(62页珍藏版)》请在金锄头文库上搜索。

1、主讲人: 杨 帆,第3章 文本信息处理技术,第1页/共62页,第三章 文本信息处理技术,主讲人: 杨 帆,第3章 文本信息处理技术,第2页/共62页,本章导读,文本是多媒体信息最基本的表示形式,也是计算机系统最早能够处理的信息形式之一。然而,随着多媒体计算机技术的发展,文本处理的内涵也从以前单一的无格式文本编辑发展到可以定义字体、字号、风格、颜色以及版面格式信息的格式文本处理。超文本和超媒体技术的出现,使得包括格式文本在内的多种媒体信息(图形、图像、声音、视频、动画等)能够以非线性关系组织在一起,形成一个超文本文件。与此同时,多媒体计算机的本土化应用催生了不同文字的字符集和编码方案,通过互联网

2、的信息交流使得文本信息处理的兼容性问题日益突出,产生了制定全球统一字符集的公共需求。本章将围绕以上内容,主要介绍文本处理的字符集与编码、中文文本信息的采集与处理方法,同时介绍相应文本处理软件。,主讲人: 杨 帆,第3章 文本信息处理技术,第3页/共62页,本章主要内容,3.1 字符集与编码 3.2 文本文件 3.3 文本信息的采集方法 3.4 文本信息处理 3.5 文本处理软件,主讲人: 杨 帆,第3章 文本信息处理技术,第4页/共62页,3.1 字符集与编码,字符集(Character Set)是多媒体计算机系统支持的所有抽象符号的总和,字符集中的每个符号都用一个唯一的二进制数作标识,这就是

3、字符编码。 计算机上最早使用的标准化字符集是ASCII字符集,主要的字符集国际标准有ISO/IEC 646和ISO/IEC 8859,主要中文字符集标准有GB2312、GBK、BIG5、 GB18030等。 全球统一的字符集标准是Unicode字符集,它为目前世界上已知的所有字符分配一个唯一的编码,可支持世界上各种语言信息的处理。,主讲人: 杨 帆,第3章 文本信息处理技术,第5页/共62页,3.1.1 英文字符及编码,英文是计算机上最早能够处理的一种文字,字符集由ASCII定义和编码,是一种基于拉丁字母表的字符编码系统,主要用于显示现代英语和其他西欧语言,是现今最通用的单字节编码系统,已被I

4、SO和IEC定为国际标准,称为ISO /IEC 646标准。适用于所有拉丁文字字母。 ASCII码用7位二进制数表示一个字符,共能表示27=128个不同的字符,包括了计算机处理信息常用的26个英文大写字母AZ、26个英文小写字母az,数字符号09、算术与逻辑运算符号、标点符号等。具体编码表如表3-1。,主讲人: 杨 帆,第3章 文本信息处理技术,第6页/共62页,主讲人: 杨 帆,第3章 文本信息处理技术,第7页/共62页,3.1.2 中文字符及编码,中文字符集为多媒体计算机系统提供了处理中文信息的能力支持,主要的字符集有:,GB2312 字符集 GBK字符集 BIG5字符集 GB18030字

5、符集 等,主讲人: 杨 帆,第3章 文本信息处理技术,第8页/共62页,3.1.2 中文字符及编码,1. GB2312 字符集,名称:信息交换用汉字编码字符集基本集 标准号:GB 23121980 收录了6763个个汉字和682个符号 采用区位处理技术,分94区,每区94位,共8836个码位,对7445个字符编码后,剩余1391个码位未使用(可扩展使用) 1-15区为符号、制表符等,16-55区位一级汉字共3755个,56-87区为二级汉字,共3008个。,主讲人: 杨 帆,第3章 文本信息处理技术,第9页/共62页,3.1.2 中文字符及编码,1. GB2312 字符集,啊,“啊”的区位码是

6、?,十进制:1601,十六进制:1001,主讲人: 杨 帆,第3章 文本信息处理技术,第10页/共62页,3.1.2 中文字符及编码,2. GBK 字符集,名称:汉字内码扩展规范 标准号:GBK 收录了21003个汉字,883个符号 主要扩展了繁体字,主讲人: 杨 帆,第3章 文本信息处理技术,第11页/共62页,3.1.2 中文字符及编码,3. BIG5 字符集,BIG5是使用繁体中文社群中最常用的电脑汉字字符集标准,共收录13,060个中文字,普及于台湾、香港与澳门等繁体中文通行区。2003年,Big5从行业标准转换成台湾官方标准,最新版本为Big5-2003。,主讲人: 杨 帆,第3章

7、文本信息处理技术,第12页/共62页,3.1.2 中文字符及编码,4. GB18030 字符集,名称:信息交换用汉字编码字符集基本集的扩充 标准号:GB 180302000 收录了27484个汉字 最新版是:GB 180302005 收录了70244个汉字 采用单字节、双字节和四字节三种方式对字符编码,主讲人: 杨 帆,第3章 文本信息处理技术,第14页/共62页,3.1.3 Unicode编码,1Unicode编码简介,Unicode是一种统一的字符编码系统,它为全世界每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。也就是说,Unicode能

8、够用于世界上各种语言的书面形式以及附加符号的表示、传输、交换、处理、存储、输入及输出,给每一个字符一个唯一特定数值。,Unicode标志,主讲人: 杨 帆,第3章 文本信息处理技术,第15页/共62页,2Unicode中CJK码区 Unicode中的汉字编码统称为CJK编码,又称为中日韩统一汉字编码(Unihan),它包括: CJK统一表意文字(CJK Unified Ideographs) CJK兼容表意文字(CJK Compatibility Ideographs) 各类符号(占用多个不同码区,共有21102个码位),3.1.3 Unicode编码,主讲人: 杨 帆,第3章 文本信息处理技

9、术,第17页/共62页,3. Unicode编码方式 Unicode字符集可以简写为UCS(Unicode Character Set),早期的Unicode采用2字节编码,称为UCS-2标准,现在的Unicode采用4字节编码,标准为UCS-4,编码方式如图3-3所示,具体编码用十六进制数表示。,3.1.3 Unicode编码,主讲人: 杨 帆,第3章 文本信息处理技术,第18页/共62页,3.1.3 Unicode编码,主讲人: 杨 帆,第3章 文本信息处理技术,第19页/共62页,4UTF编码 Unicode编码只是对所收录的字符集的顺序编码,如何在程序中应用Unicode编码,还需要进

10、行相应的转换,所产生的编码称为UTF(UCS Transformation Format)编码,按照编码的单位长度,可分为UTF-8、UTF-16和UTF-32三种形式,编码单位分别是字节(Byte)、字(Word)和双字(DWord)。UTF-8编码规则如图3-4所示。,3.1.3 Unicode编码,主讲人: 杨 帆,第3章 文本信息处理技术,第20页/共62页,5Unicode汉字的输入 Unicode汉字可通过两种方式进行输入,一种是查表输入,一种是输入法输入。,图3-5 charmap.exe的运行窗口,3.1.3 Unicode编码,主讲人: 杨 帆,第3章 文本信息处理技术,第2

11、1页/共62页,3.1.4 字符处理过程,在多媒体计算机系统中,任何字符都要保存两种信息: 一种该字符的内部编码内码 一种是该字符的外观影像字模。 字符处理的基本原理就是通过键盘输入得到字符内码,再用内码查找字模库输出。,(a)大写字母A的方格矩阵,1西文字符处理过程 在MPC中,每一个西文字符均对应一个ASCII码,每一个字符的外形可被绘制在一个M x N的方格矩阵中,如右图(a)所示。,主讲人: 杨 帆,第3章 文本信息处理技术,第22页/共62页,在图中笔画经过的方格有黑点用1表示,未经过的方格无黑点用0表示,这样形成的0、1矩阵称为字符点阵(也叫字模)。若M=N=8,可依水平方向按从左

12、到右的顺序将0、1代码组成字节信息,每行一个字节,从上到下共形成8个字节,如下图(b)所示,灰色一列是对应字节的十六进制值。,将所一个字符集中所有字符的字模按照其在ASCII码表中的位置顺序存放,就形成了该字符集的字形点阵库(也叫字模库),如右图(c)所示。,主讲人: 杨 帆,第3章 文本信息处理技术,第23页/共62页,计算机处理西文字符的过程如图3-7所示,其中从ASCII码(内码)找到字符点阵(字模)的功能称为字符发生器。,主讲人: 杨 帆,第3章 文本信息处理技术,第24页/共62页,2. 中文字符处理过程,中文字符的输入不能像英文字母那样直接通过键盘完成,而是要用英文键盘上不同字母的

13、组合对每个汉字进行编码,然后通过输入一组字母编码实现对汉字的输入。因此,对于多媒体计算机系统来说,处理中文字符,除了要存储汉字内码、汉字字模(库)外,还要存储用于汉字输入的输入码(汉字外码)。 中文字符处理的过程:首先,将汉字在给定的方格内绘制出点阵图像,然后按照0、1矩阵形成字节编码(汉字字模),再将所有汉字的点阵字节编码按照其在汉字字符集中的编码位置顺序存放,形成汉字点阵字库(汉字字模库)。 当要显示(输出)一个汉字时,系统通过汉字内码,查找汉字库,读出汉字字模数据,再按顺序在显示器上还原出汉字外形。,主讲人: 杨 帆,第3章 文本信息处理技术,第25页/共62页,图3-8 汉字处理过程,

14、对于中文信息处理来说,汉字输入编码(码表)、汉字内码、汉字点阵库是三个紧密相关的部分。汉字从输入到显示输出的整个过程如图3-8所示。,主讲人: 杨 帆,第3章 文本信息处理技术,第26页/共62页,3.2 文本文件,文本是信息表现的主体形式,可以清楚、准确地表达思想,描述概念,叙述事实等。在多媒体计算机中,文本主要表现为数值型数据和字符型数据,并以不同格式的文本文件存储,通常分为无格式文本文件、格式文本文件和超文本文件3种类型。,3.2.1 无格式文本文件 只存储文字信息本身,文字以固定大小和风格输出,因而也称为纯文本,通常保存为.txt类型的文件。,主讲人: 杨 帆,第3章 文本信息处理技术

15、,第27页/共62页,图3-7 格式文本,3.2.2 格式文本文件 不仅包含文字信息,还包括文字的字号、颜色、字体以及其他用于规定输出格式的排版信息 。编辑这类文件,,可设置文本的字体、字号、颜色、字形(正常、加粗、斜体、下划线、上标、下标等)、字间距、行间距和段间距等。格式文本要用功能较强的字处理软件来编辑,如MS Word和金山WPS等。,主讲人: 杨 帆,第3章 文本信息处理技术,第28页/共62页,3.2.3 超文本文件 超文本文件是建立在非线性的超文本概念基础上的,它将文本内容按其内容含义分割成不同的文本块,再按其固有的逻辑关系通过超链接组织成非线性的网状结构,从而提供,图3-11

16、超文本文件的逻辑结构定义,了一种符合人们思维习惯的联想式阅读方式。纯粹的超文本文件是由超文本标记语言(HTML)和被分割的不同文本块按照HTML规定的格式要求组成的。,主讲人: 杨 帆,第3章 文本信息处理技术,第29页/共62页,(a) 超文本文件实例 (b) 浏览效果,当超文本文件中的内容不仅包含文本块,而且还包含图片、声音、视频、动画等多种媒体信息,且通过超级链接实现各种媒体信息的组合使用时,这种超文本文件就又被称为超媒体或超媒体文件。,图3-12 超文本文件实例和浏览效果,主讲人: 杨 帆,第3章 文本信息处理技术,第30页/共62页,表3-4 常用文本文件存储类型说明表,3.2.4 常用文本文件的存储类型,主讲人: 杨 帆,第3章 文本信息处理技术,第31页/共62页,3.3 文本信息的采集方法,文本信息的采集主要是指利用不同的设备和输入途径,快速准确地输入文本信息的方法。 1、键盘输入:这是传统的文本输入方法。通过键盘,可直接输入英文信息;中文信息则通过不同的中文输入编码来完成。 2、

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号