多媒体技术及应用 教学课件 ppt 作者 978-7-302-25927-5 第3章 文本处理技术

上传人:E**** 文档编号:89378455 上传时间:2019-05-24 格式:PPT 页数:45 大小:822.50KB
返回 下载 相关 举报
多媒体技术及应用 教学课件 ppt 作者 978-7-302-25927-5 第3章  文本处理技术_第1页
第1页 / 共45页
多媒体技术及应用 教学课件 ppt 作者 978-7-302-25927-5 第3章  文本处理技术_第2页
第2页 / 共45页
多媒体技术及应用 教学课件 ppt 作者 978-7-302-25927-5 第3章  文本处理技术_第3页
第3页 / 共45页
多媒体技术及应用 教学课件 ppt 作者 978-7-302-25927-5 第3章  文本处理技术_第4页
第4页 / 共45页
多媒体技术及应用 教学课件 ppt 作者 978-7-302-25927-5 第3章  文本处理技术_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《多媒体技术及应用 教学课件 ppt 作者 978-7-302-25927-5 第3章 文本处理技术》由会员分享,可在线阅读,更多相关《多媒体技术及应用 教学课件 ppt 作者 978-7-302-25927-5 第3章 文本处理技术(45页珍藏版)》请在金锄头文库上搜索。

1、第1页,第3章 文本处理技术,本章概述 本章的学习目标 主要内容,第2页,本章概述,文本(Text)是多媒体信息最基本的表示形式之一,可以清楚、准确地表达思想,描述概念,叙述事实等。它是人们最熟悉的信息表示方式,例如,文章,书等都以文本形式出现。 文本的最显著的特点是在组织上是线性的和顺序的。在计算机系统中,文字和数值都是用二进制编码表示的,文字信息和数值信息统称为文本信息。 与其他媒体相比,文本是最容易处理、占用存储空间最少、最方便利用计算机输入和存储的媒体。 本章主要介绍了文本的基本知识,文本的获取及处理。,第3页,本章的学习目标,理解文本的基本知识 掌握常用的文本获取方法 熟练掌握文本的

2、编辑 掌握电子图书的制作,第4页,主要内容,3.1 文字信息在计算机中的表示 3.2 文本的类型 3.3 获取文本信息 3.4 处理文本信息 3.5 本章小结,第5页,3.1 文字信息在计算机中的表示,文本是以文字和各种专用符号表达的信息形式,它是现实世界中使用的最多的一种信息存储和传递方式,主要用于对信息的描述性表示。 计算机系统通过指定的二进制编码来存储数字、字母和其它字符。因此,要想在计算机中表示文字信息,需要将文字用二进制编码的形式表示出来。 在计算机系统中,西文字符和汉字的编码方式是不同的。,第6页,3.1.1 西文编码,ASCII码 西文采用ASCII码(American Stan

3、dard Code for Information Interchange,美国信息交换标准代码)表示,包括数字、字母、特殊符号等。 ASCII码用7位二进制数表示一个字符,共能表示27=128个不同的字符,包括了计算机处理信息常用的26个英文大写字母A-Z,26个英文小写字母a-z,数字符号0-9,算术与逻辑运算符号、标点符号等。 扩展ASCII码,第7页,3.1.2 汉字编码,国标码,国标码 区位码 机内码 输入码,第8页,国标码,我国国家标准局于1981年5月颁布了信息交换用汉字编码字符集基本集,代号为GB 2312-1980,是国家规定的用于汉字信息处理使用的代码依据,这种编码称为国标

4、码。 由连续两个字节组成。在国标码字符集中共收录6763个常用汉字和682个数字和图形字符,其中一级汉字3755个,按拼音顺序排列,二级汉字3008个,按部首排列。,第9页,区位码,国标GB 2312-1980规定,所有的汉字与符号组成一个9494的矩阵,在此方阵中,每一行称为一个“区”(区号为0194),每一列称为一个“位”(位号为0194),该方阵实际组成了一个94个区,每个区内有94位的汉字字符集,每一个汉字或符号在码表中都有一个唯一的位置编码,称为该字符的区位码。 国标码是由区位码稍作转换得到,其转换方法为:先将十进制区位码转换为十六进制的区位码,这样就得了一个与国标码有一个相对位置差

5、的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。,第10页,机内码,国标码是汉字信息交换的标准编码,但因其两字节的最高位为0,与ASCII码发生冲突,如“刘”字,国标码为41H和75H,而西文字符“A”和“u”的ASCII也为41H和75H,现假如内存中有两个字节为41H和75H,这到底是一个汉字,还是两个西文字符“A”和“u”?于是就出现了二义性。显然,国标码是不可能在计算机内部直接采用的。 于是,汉字的机内码采用变形国标码。其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变。也就是说,如果国标码是16进制的,直接加上8080H

6、即可。,第11页,输入码,汉字输入码是使用英文键盘输入汉字时的编码。目前,我国已推出的输入码有数百种,但用户使用较多的只有十几种。按输入码编码的主要依据大体可分为顺序码、音码、形码、音形码四类。 现在最普及的是拼音输入法(如紫光拼音、搜狗拼音等)和五笔输入法。如“刘”字,用全拼,输入码为码为“liu”,用五笔字型则为“yjh”。 需要指出的是,不管采用什么样的编码输入法(例如拼音、五笔字型等)来输入一个汉字,其机内码都是相同的。,第12页,3.1.3 Unicode编码,Unicode(统一字符编码标准,又叫万国码、单一码)是一种在计算机上使用的字符编码。从1990年开始,来自许多知名计算机公

7、司的语言学家、信息专家和工程师携手合作,采用16位对多种文字文本和字符进行编码,最后形成了一个统一的编码方案,为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。 Unicode于1994年正式公布,Unicode标准中包含了超过18000个汉字(日本、中国和韩国使用的象形文字),以后的版本中还将包括一些生僻字,例如楔形文字、象形文字和古代汉字。此外,还保留了一些字符编码空间,用于用户的专门用途。,第13页,主要内容,3.1 文字信息在计算机中的表示 3.2 文本的类型 3.3 获取文本信息 3.4 处理文本信息 3.5 本章小结,第14页,3.

8、2 文本的类型,无格式文本 格式文本 超文本,第15页,无格式文本,无格式的文本只存储文字信息本身,文字以固定的大小和风格输出,因而也称为纯文本,通常保存为.txt类型的文件。 一般使用简单的文本编辑软件即可进行编辑,如Windows操作系统中的“记事本”。使用“记事本”软件,用户无法定义文本格式和版面格式,只能进行最基本的文本和临时的简单格式处理。 由于是纯文本文件,所以这些简单格式不能随文字内容一起保存。,第16页,格式文本,格式文本不仅包含文字的基本信息,还包括文字的字号、颜色、字体以及其他用于规定输出格式的排版(如表格、分栏等)信息。编辑这类文件,可设置文本的字体、字号、颜色、字形(正

9、常、加粗、斜体、下划线、上标、下标等)、字间距、行间距和段间距等。 格式文本要用功能较强的字处理软件来编辑,如Microsoft Word和金山WPS等。通过这些软件用户可以定义和编辑文本的格式和版面信息。 格式文本是计算机文字处理的重要内容之一。,第17页,超文本,超文本是以非线性方式组织的,它将文本内容按其内容含义分割成不同的文本块,再按其固有的逻辑关系通过超链接组织成非线性的网状结构,从而提供了一种符合人们思维习惯的联想式阅读方式。纯粹的超文本文件是由超文本标记语言(HTML)和被分割的不同文本块按照HTML规定的格式要求组成的。 当超文本中的内容不仅包含文本块,而且还包含图片、声音、视

10、频、动画等多种媒体信息,且通过超级链接实现各种媒体信息的组合使用时,则这种超文本又被称为超媒体。目前流行于Internet上的网页大多是超媒体。,第18页,常用文本的存储类型,第19页,主要内容,3.1 文字信息在计算机中的表示 3.2 文本的类型 3.3 获取文本信息 3.4 处理文本信息 3.5 本章小结,第20页,3.3 获取文本信息,文本信息的获取主要是指利用不同的设备和输入途径,快速准确地输入文本信息的方法。 一般情况下计算机系统是通过英文键盘来输入英文信息的,中文信息的输入方法也一样,但这并不等于所有的文本信息只能通过键盘来输入。 在多媒体应用项目的开发过程中,首先要解决的就是文本

11、信息的输入问题,有的应用需要在短时间输入大量的文本信息,仅靠键盘输入内容很难满足需要。 随着多媒体技术的发展,人们己经开发出了手写输入、语音输入、OCR识别输入等多种文本信息输入方法。,第21页,3.3.1 键盘输入,键盘输入是传统的文本输入方法,是随时可用的主要的输入方法。 通过键盘,可直接输入英文信息;而中文信息则需通过不同的中文输入法来完成。 常用的中文输入方法有“搜狗拼音”输入法、“五笔字型”输入法和“微软拼音”输入法等。 一般来说,使用键盘输入信息特别是中文信息时,需要经过不断的练习,才能熟练掌握一种汉字输入方法。,第22页,3.3.2 手写输入,手写输入法是近年来一种比较成熟的人性

12、化中英文输入法,适合于不习惯键盘操作的人群和没有标准英文键盘的场合,常用的掌上电脑、台式机以及部分手机产品都配备了手写输入系统。 常规的手写输入系统由一个手写笔、一块手写板和手写识别软件三部分组成,使用时只要把手写板与电脑主机正确连接,并安装识别软件,即可像真正在纸上写字一样向电脑输入信息。 与键盘输入相比,手写输入的最大特点就是操作简单,只要会写字即可输入文字。,第23页,3.3.3 语音输入,语音输入是通过计算机系统中的音频处理系统(主要包括声卡和麦克风),采集处理人的语音信息,再经过语音识别处理,将说话内容转换成对应的文字来完成输入的。 利用语音识别技术将声音通过计算机转换为文本,是最方

13、便、最自然、最快捷的文本输入方式。 语音输入的最大特点是只要会说话,就能把信息输入到电脑中,但在具体使用之前需经过短时间的语音“适应”训练。,第24页,3.3.4 扫描输入,扫描输入的核心是光学字符识别技术(Optical Character Recognition,OCR),OCR输入就是指用扫描仪将印刷文字以图像的方式扫描到计算机系统中,再用OCR文字识别软件将图像中的文字识别出来,并转换为文本格式的文件,完成文本信息的输入。 使用扫描输入之前,首先要安装扫描仪,并安装相应的OCR识别软件。使用扫描输入一般要经过以下3个步骤: 1扫描 2纠偏和翻转 3识别,第25页,主要内容,3.1 文字

14、信息在计算机中的表示 3.2 文本的类型 3.3 获取文本信息 3.4 处理文本信息 3.5 本章小结,第26页,3.4 处理文本信息,文本信息处理是指根据不同的要求和使用目的,选择相适应的文本格式,进行内容、形式(版面)、风格等的编辑与设计工作,并通过设计特殊图符和效果来美化文本。 文本信息处理的复杂情况根据文本结构的不同而不同。 对于格式文本来说,内容输入完成后,还需要进行相关的处理,比如版面设计、风格设计、文字属性编辑、特殊效果处理、打印输出等。,第27页,3.4.1 文本信息处理,文本信息是格式文本的内容,是主体部分;文本属性信息、版面信息用来表现和反映文本的形式。内容与形式的适当搭配

15、,是格式文本处理的基本要求。 格式文本处理的主要目的是为了出版发行(包括打印、电子发行等)。除了创意和设计风格外,格式文本处理在技术方面包括以下几方面的内容: 1版面格式设置 2文字属性编辑 3非文本内容排版,第28页,1版面格式设置,在进行格式文本处理时,主要内容就是根据应用目的和场合,选择合适的版面格式,并通过文字处理软件进行设置。主要包括页边距、页眉及页脚的设置,版心区域文字的排列方向(横向、纵向)和纸张类型(空白纸、横格纸、竖格纸)等内容。,第29页,2文字属性编辑,文本中的文字属性包括: 字体(Font) 字号(Size) 风格(Style) 颜色(Color) 对齐方式(Align

16、) 属性编辑就是通过相应的操作实现对这些属性值的设置和修改。,第30页,字体(Font),Windows系统提供了许多中文字体,主要包括宋体、仿宋、黑体、楷体、隶书、行楷等近20种,如图所示。 在处理文本时,应根据文本的使用需要选择合适的字体。,第31页,字号,文本中字的大小用两种方式来描述。 汉字的大小通常用规定大小的字号来描述,分为初号、小初号、一号、二号一直到八号,初号字最大,八号字最小。 西文字符通常则是直接给出字符的大小,以“磅”(Point)为单位,最小字为5磅,最大字为72磅。“磅”值越大,字就越大。 汉字也可以在字号设置框内直接输入“磅”值。 汉字字号与“磅”以及毫米之间的对应关系,第32页,风格,字体的风格主要指在选定的字体、字号基础上,再使文字在造型方面有所变化,从而表现出不同的风格。 具体风格选项有:普通、加粗、斜体、下划线、字符边框、字符底纹和阴影等。 在具体应用中,可以通过字处理软件的风格选项设置文字的不同风格,使整个文本显得活泼、多样。,第33页,颜色,格式文本中的文字属性还包含了显示颜色。 多媒体计算机的显示系统均提供真

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号