文字处理基础理论课件

上传人:我*** 文档编号:144765674 上传时间:2020-09-14 格式:PPT 页数:58 大小:888.50KB
返回 下载 相关 举报
文字处理基础理论课件_第1页
第1页 / 共58页
文字处理基础理论课件_第2页
第2页 / 共58页
文字处理基础理论课件_第3页
第3页 / 共58页
文字处理基础理论课件_第4页
第4页 / 共58页
文字处理基础理论课件_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《文字处理基础理论课件》由会员分享,可在线阅读,更多相关《文字处理基础理论课件(58页珍藏版)》请在金锄头文库上搜索。

1、第二篇 计算机中文信息处理,第一章 绪论 主要内容 文字信息处理的概念 中文信息处理的组成 汉字的属性 中文信息处理的标准 中文信息处理的应用 文字信息处理,文字信息处理,文字处理及图文混排的方法,重点!,1.1 文字信息处理的概念: 一. 概念 信息:自然存在的人类活动所产生的各种状态和消息的总称。 信息的载体:文字,声音,数据,图形,图像等。 信息的处理:信息的传输,存储和加工。 本课所指信息:文字信息。 二.中文信息处理的必要性: 研究内容:汉字输入,汉字信息存储和加工处理,汉字输出。 三.中文信息处理的发展:,50年代末期:研制成功俄汉机器翻译模型样机 60年代末期:研制出汉字电报译码

2、机 70年代开始:开设系统地研制开发 70年代末期:研制成功一些新型汉字输入与输出设备 80年代以来:汉字信息处理技术蓬勃发展,国家颁布了一系列中文信息处理标准 四.中文信息处理系统的组成 硬件:计算机硬件,字库,输入设备和输出设备。 软件:中文操作系统(系统软件)和应用软件。,1.2 汉字的属性 汉字的属性是指汉字所具有的性质和特点。 汉字的三个基本属性:字形,字音,字义。 一.汉字的字形 汉字的六种造字方法:象形,指事,会意,形声,假借,转注。 汉字的基本结构分析:汉字字形分解的层次各不相同,一般可拆分为三个层次:即汉字,字根,笔划。 五种基本笔划:横,竖,撇,捺,折。 字根:组成汉字形体

3、的基本结构单元。 二.汉字字音,汉字是单音节文字,每字一个音节。 汉语普通话有:主要元音音素6个,辅音音素22个,声母21个,韵母35个,可构成417个基本音节,1330个左右的声 调音节。 三.汉字字义 汉字字义属性在汉字信息处理技术中应用受到极大限制。 1.3 汉字信息处理标准: 汉字信息处理是以计算机系统作为工具,故汉字信息处理技术应满足电子计算机系统的有关标准。 国家标准化机构组织了各方面专家制订出我国汉字信息领域的一系列标准。包括汉字交换码标准,汉字点阵字模集及数据集标准。,1.4 汉字信息处理的应用 1 .电子出版系统: 2 .中文情报检索系统: 3 .汉字通信系统: 4 .信息管

4、理系统: 5 .机器翻译系统: 6 .办公自动化系统:,第二章 汉字代码体系 主要内容 汉字代码的六种类型 汉字输入码,内部码的确定 汉字代码之间的关系 2.1 代码的国家标准 一 概念 汉字编码:是指按一定的规则,对指定的汉字集中的元素编制相应代码。 汉字代码:即汉字字符的代码化表示,常用英文字母和(或)数字的不同组合来表征。 汉字代码的六种类型及其在系统中的分布:,汉字代码在系统中的分布:,计算机 (包括汉字库),外部输入层,输入码 控制码,内部处理层,内部码,交换码地址码,字形码控制码,外部输出层,汉字内部码:汉字信息处理系统内部标识汉字的编码。 汉字输入码:由输入设备直接发生的,与内部

5、码有对应关系的可区别信息。 汉字地址码:存储汉字字形信息的逻辑地址码。 汉字交换码:用于汉字信息处理系统之间或与通讯系统之间进行信息交换的汉字代码。 汉字字形码:指确定一汉字字形点阵的代码或称汉字字模点阵码。 汉字控制功能码:汉字信息处理中,用以控制汉字数据的格式,传送和解释执行的编码。,2.2 汉字输入码: 一 概述: 汉字输入的种类:汉字的键盘输入,字形识别输入,语音识别输入 小键盘编码输入:用字母,数字或符号将汉字编成代码的间接输入。 汉字输入码按编码规则分为:流水码,音码,形码和音形结合码四种。,二 流水码:将被编码的汉字按一定的顺序排列,逐一赋予一号码作为该汉字编码。,特点:整齐,简

6、单,输入速度快,用户较难记忆和掌握。 实例:国标码,区位码,电报码等。,三 音码:根据被编码汉字的读音形成的代码。 特点:简单易于掌握,输入速度慢,知道读音方可输入。 实例:拼音码,四 形码:根据被编码汉字的字形形成的代码。 特点:输入速度快 实例:五笔字型编码方案,五笔画编码方案,五 音形结合码:根据被编码汉字的读音和字形确定的汉字编 码,分为形音码和音形码。 特点:结合音码与形码之长,快速输入,记忆量较大 实例:首尾码,PV码,2.3 汉字内部码: 一 概述: 信息处理系统通常由信息采集,信息传输,信息存储,信息加工和信息利用等几部分组成。 西文内部码与其交换码是统一的,即ASCII码。

7、汉字内部码尚无统一的标准。,二 汉字内部码的编码原则: 1 理想的汉字内部码方案应具备的特征: (1) 信息的冗余度小,以尽量短的码长表示尽可能多的汉字字符。 (2) 码长固定,便于处理。 (3) 能表示足够的汉字字符以满足用户需要,并可扩充。,(4) 与国家标准交换码有简单的对应关系。 (5) 能唯一地标识汉字,达到一字一码,一码一字。 (6) 尽量回避专用的控制字符。 (7) 有好的国际兼容性。,2. 汉字内部码的编码原则: (1)有足够的汉字字符数量。 (2)与国家标准交换码基本有良好的一一对应关系。 (3)内部码的长度为定长字节双八位,码长最短,与大多软件相容。 (4)最大限度地与现在

8、的主流内部码体系相兼容。,2.4 汉字的其它代码: 一 汉字交换码 GB231280为基本集中6763个汉字确定了交换码。 GB7589,GB7590分别为辅二和辅四集中16000多个汉字确定了交换码。 二 汉字地址码 汉字地址码与内部码应有简单的对应关系;且应是连续有续的。,三 汉字字形码 多为数字式,以点阵方式形成汉字。 简易型16*16,普及型24*24,提高型32*32汉字字型点阵已有国家标准。 汉字字形码设计涉及文字学,书法艺术等。 汉字代码之间的关系: 示意图如下:, 文字信息处理(文字排版):依据文字原稿及对印刷品的要求,确定适当的字体、字号、行距、字距、版式等,并利用文字信息处

9、理设备对文字原稿进行版面设计和排版。,字体、字号及文字排版的相关知识,计算机排版,照像排版,活字排版,概述,3.1.1 文字字体、大小和排版要求,3.1.1.1 常用的汉字印刷字体有哪几种,宋体 山重水复疑无路,仿宋 柳暗花明又一村,楷书 疏影横斜水清浅,隶书 暗香浮动月黄昏,黑体 孤帆远影碧空尽,(1) 汉字字体,另外:魏碑、姚体、美术体等,(2) 外文字体:拉丁文、俄文、希腊文,3.1.1.2 印刷文字的大小如何表示,1)活字:号制为主,点制为辅,号制:4号字系统、5号字系统、6号字系统,初号,2号,5,7,1号,4号,3号,6,8,1英寸=72P(磅)1P=0.35146mm 1Pica

10、=12p=4.21752mm,3)计算机排版,2)照排文字,用mm计算,单位“级”(“K”) 1 K = 0.25mm 一般有7 62级,与活字排版类似 使用点制和号制,3.1.1.3 版面设计的主要内容,1)开本,全张,对开,四开,八开,16开,32开,书刊的开本,基本开本,辅助开本,书刊常用开本,A4:210297 mm 正度16K:185260 mm 大度16K:210285 mm 正度全张:7871092 mm 大度全张:8801230 mm,2)正文:书芯大小、位置 字体、字号、字间距、行间距 分栏数、栏间距,3)标题:位置、字体、字号、与正文的间距,4)页码:位置、字体、字号,5)

11、书眉:位置、字体、字号、书眉线粗细和长度 为便于查阅而在版心上端加印的供检索的条目。e.g.篇章节的标题、字典的部首、字头或其它,6)版面设计:折页方式、页码安排、规矩线 艺术性、均衡感,3书刊的基本组成,封面、封底、勒口 书芯 环衬 扉页 插页 护封、书腰纸 函套 书签带 ,书籍组成,3书刊的基本组成,版面 版芯 天头 地脚 裁口 订口 ,页面的组成,3.1.2 活字排版,活字排版:根据原稿及版面设计的要求,拣出所需的各种 字体、字号的活字及空白部分的填充材料,并 将拣出的毛坯和制好的图版等组成一定大小、 尺寸完整的活字印版。此方法称为活字排版。,3.1.3 照像排版,3.1.4 计算机排版

12、,在通用计算机上,运用各种排版软件进行版式设计、文字录入、编辑排版,控制激光打印机或激光照排机输出文字的排版技术和方法。,系统构成:输入设备 计算机 输出设备,五笔字型输入法,1. 输入方法分类:即汉字编码方案,理想的编码方案: 一字一码; 编码规律一致,简单易学; 平均击键次数少,输入速度快。,3.1.4.1 计算机文字信息的输入简介,编码输入:,自然输入:,根据汉字的字形、笔画或拼音进行编码,再用代码直接输入。,根据汉字的形体或发音整体直接输入,通过计算机识别实现汉字或图形的输入。,理想自然输入方案: 输入速度快; 识别准确性高。,电报码输入: 不同数码的排列组合,10000 汉字整字键盘

13、: 全键式 一字一键,4096 一键多字 文字键 + 区别键 笔触式 字盘 汉字字根键盘:字根、部首等纯形符按一定顺序组成 小键盘(标准键盘): 字形编码:按笔画或字根及其相互结构关系编码 e.g.五笔字形 字音编码:按拼音编码,如全拼、双拼,智能拼音 音形结合编码:以音为主结合字形和笔形 以形为主结合字根发音特点,1)汉字的编码输入,2)汉字的自然输入,自动识别输入:光学扫描、自动识别,语音输入: 语音输入设备和语音识别处理系统,特点:输入速度快; 可输入图形和图像; 但对输入原稿要求严格,特点:输入设备价格较高; 必须建立专业词库; 但对输入原稿要求严格,天空sky 1234,扫描,识别,

14、语音输入,识别,2. 常用的汉字输入方法:五笔字形输入、自然码输入,1)五笔字形输入法:字根拼形输入,笔画:汉字中连续不间断写成的一个线段,字根:若干笔画交叉连接形成的相对不变的结构,2)自然码输入法,5位:表音(声母部、韵母部) 表意(义部) 表形(形部和尾部),3. 常用排版软件系统,排版软件系统,批处理排版软件: 如:wps,批处理方式排版。 适合排书籍。 要求排版技能较高,但生产效率高。 可以排出十分规范的书籍。 使用较为方便。,特点,交互式排版软件: 如:方正飞腾、 Pagemaker等,特点,交互式排版 实现“所见即所得”。 办公室、公文、电子邮件应用为主。 可以排出较复杂的版式。

15、 使用十分方便。,字体字形技术及其特点 一组具有特定外观风格的字型的集合称为字体或字型。而字体或字模则是一组用来产生具有特定尺寸和属性组合特征的字型集合,其中包含字型的描述信息和控制信息。 从字型数据不同描述方式来分,计算机文字处理中陆续出现了点阵字模、矢量字模和曲线字模三种,对应的字体分别称为点阵字体、矢量字体和曲线字体。 一、点阵字形技术: 点阵字型技术是以横向扫描线上点阵的黑或白来记录字形,每一点以一位表示,因此在英文中称为Bitmapped Font(位图字库) 或Raster Font(光栅字库)。 点阵字库制订有国家标准。,在显示和硬拷贝输出时不需要作填充处理,还原速度快; 字体的组织和管理方式简单; 适用于显示和低分辨力打印输出; 数据量大; 不同字号点阵字需要多套字体来保存; 对字符放大或缩放、旋转、倾斜等操作会严重影响文字质量,点阵字形,点阵字库的特点: 点阵字体在硬拷贝输出和显示时,因不需要作填充处理,因而填充速度快。 显示和打印输出时,所用字号和字库一致,保证质量。 字体的组织和管理方式简单。 数据量大。 放大后会出现明显的锯齿边,严重影响大字的输出质量。 点阵字变换后会产生字形畸变。 点阵字库的应用范围: 广泛应用于显示和低分辨率打印输出等场合,二、矢量字形技术 矢量字形技术是以一系列

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号