中文信息处理技术原理与应用

上传人:宝路 文档编号:49710751 上传时间:2018-08-01 格式:PPT 页数:55 大小:1.63MB
返回 下载 相关 举报
中文信息处理技术原理与应用_第1页
第1页 / 共55页
中文信息处理技术原理与应用_第2页
第2页 / 共55页
中文信息处理技术原理与应用_第3页
第3页 / 共55页
中文信息处理技术原理与应用_第4页
第4页 / 共55页
中文信息处理技术原理与应用_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《中文信息处理技术原理与应用》由会员分享,可在线阅读,更多相关《中文信息处理技术原理与应用(55页珍藏版)》请在金锄头文库上搜索。

1、中文信息处理技术中文信息处理技术原理与应用原理与应用 中文信息处理技术原理与应用中文信息处理技术原理与应用 (七)(七)北京信息工程学院计算机系北京信息工程学院计算机系 李宝安李宝安1中文信息处理技术中文信息处理技术原理与应用原理与应用 第七章 中文信息处理技术的应用 中文应用系统发展概况 中文电子印刷排版系统 中文信息检索系统 基于Internet的搜索引擎 中文办公自动化系统 2中文信息处理技术中文信息处理技术原理与应用原理与应用 中文应用系统发展概况对我国中文信息处理技术一些经历 的回顾 我国的文字信息处理研发工作开始于一 九七四年。当时国家有一专项工程,代号为七 四八工程(汉字信息处理

2、系统工程),最初拟 定的研发目标有三项。一、精密型中文编辑排 版系统;二、中文信息检索系统;三、中文信 息远距通信系统。3中文信息处理技术中文信息处理技术原理与应用原理与应用 中文信息处理的发展走了一个马鞍型在2004年4月举行的第一届中文信息处理发展国 际研讨会上, 倪光南院士对中文信息处理的发展进行 了总结,认为中文信息处理的发展走了一个马鞍型。 从20世纪70年代至90年代中期算一个高潮期,90年代 中期进入低潮。自90年代未起,中文信息处理由冷转 热,再度活跃。 第一个高潮期中文信息处理的第一个高潮期的核心问题是字的 处理。在这一时期造就了联想、方正、四通等一批靠 中文处理产品起家的企

3、业。 4中文信息处理技术中文信息处理技术原理与应用原理与应用 中文信息处理的低谷期90年代中期,电脑由DOS升级到Windows 平台。微软公司自Windows 3.2全面采用当时最 先进的中文信息处理技术,传统的中文信息处 理产品失去了市场。这一时期可以认为是中文 信息处理的低谷,原先做中文信息处理的公司 纷纷转向。中文信息遭遇互联网-推动中文信息处 理进入了第二次高潮90年代末,互联网忽地热闹起来。无线互 联网,手机、PDA等促进中文信息技术的发展。5中文信息处理技术中文信息处理技术原理与应用原理与应用 互联网时代对中文信息处理产生了新需 求完成从字到语义的跨越中文检索获普遍关注机器翻译大

4、发展识别技术领先国际语音合成走出实验室6中文信息处理技术中文信息处理技术原理与应用原理与应用 中文电子印刷排版系统 在文字信息处理技术的基础上,要 求达到高精度地编排出符合印刷出版要 求的版面质量的计算机系统,称为电子 印刷排版系统。它和一般文字处理技术 的主要差别在于编排精度,文字质量, 和要求编排出各种版面(书、报、刊物 ;文科和科技版,广告等)的格式。7中文信息处理技术中文信息处理技术原理与应用原理与应用 中文电子印刷排版系统技术简介中文编辑排版关于排版用的精密字模关于字模数目关于字体数目8中文信息处理技术中文信息处理技术原理与应用原理与应用 中文电子印刷排版系统设备的构成 9中文信息处

5、理技术中文信息处理技术原理与应用原理与应用 其中数据采集汉字终端、汉字造字终端、图文扫描仪 组成系统的输入设备。系统的前处理部分输出的结果是经编排好的版面信息 ,已有版面格式,但其中的文字是以代码形式提供的 ,尚须转换 成达到出版印刷质量的汉字字模,包括按 指定要求的字号尺寸规格。这项工作由照排控制机完 成。照排控制机和照排输出设备等构成系统的后处理部分 。照排控制机除了把输出版面信息中的汉字代码转换 成精密汉字字模信息(包括字体、字号尺寸等的变化 )外,尚须要控制照排机输出具有完整信息的版面。 用作系统输出设备的照排机目前普遍使用激光扫描照 排机。10中文信息处理技术中文信息处理技术原理与应

6、用原理与应用 精密汉字字模和照排控制技术 文字印刷排版系统的主要功能特点是把 文字,各种符号、图形、照片、表格等 在版面上作精确定位。因此,一个排版 系统,先要定出版面精度指标。同时也 要求汉字字模具有相当于版面定位精度 的高质量。也就是要求有高的分辨率等 级。通常精密印刷要求分辨率达到25 100线毫米。具有这种分辨率等级的汉 字字模称为精密汉字字模。 11中文信息处理技术中文信息处理技术原理与应用原理与应用 一精密型汉字字模信息压缩 技术精密汉字字模信息的压缩 方法,目前应 用较普遍的有:黑白段长度编码方法字模笔画轮廓描述方法(也称为矢量描述 方法 )精密型汉字字模库 12中文信息处理技术

7、中文信息处理技术原理与应用原理与应用 黑白段编码方法 汉字字模有规则笔画和不规则笔画13中文信息处理技术中文信息处理技术原理与应用原理与应用 二. 字模信息还原和照排控制 在输出版面信息供制版印刷时,必须把字模压缩信息 还原成实际点阵字模,包括按要求形成不同字体,不 同字号尺寸等文字变倍的功能;此外,还要对照排输 出设备实现 控制。这两项工作由照排控制器完成。照排控制器的功能,可以用硬设备实现 ,也可以用软 件方法实现。可以用高性能的通用微型机作为控制器的主处理机,以 增强设备的通用性。照排控制器除了实现上述功能外,尚应具备其它方面的 功能。如提供大容量的缓冲存储,以匹配系统前后处理 部分的工

8、作速度。提供字模变形、旋转、倾斜、镜象排 印、阴阳图变换、打阴影、打斜线、网格,提供灰度等 级、基本图形、曲线等丰富的功能。 14中文信息处理技术中文信息处理技术原理与应用原理与应用 激光照排机 激光照排机是照排系统的版面输出设备。它的工作原 理并不复杂,但对光学和机械动作的精度要求却很高 。激光照排机的输出分辨率一般在2550线毫米( 6351270线吋),高的可达100线毫米。激光照 排机的工作原理是用一定直径的激光束(若输出分辨 率为40线毫米,则光束直径为25微米),用声光调 制方法经字模信息的调制后,使光束在感光底片上感 光,于是版面信息便记录到感光底片上。经显影、定 形后,成为制作

9、印刷版用的底版。除了分辨率指标外 ,还有输出速度。目前一种连续输 出性能的照排机, 输出速度在100500毫米分钟。输出样张的幅面, 具有A4,A3,A2几种规格,其中A4,A3是用于书版的 ,A2用于报版。15中文信息处理技术中文信息处理技术原理与应用原理与应用 排版软件的功能 一、排版的主要功能排版的主要功能是使文字、符号、表格 、公式、图形、照片等内容在版面上精 确定位。为此,排版软件设计时要对版 面分割成基本尺寸,以输出分辨率的倒 数来表示这一基本尺寸。也即文字、图 形等能以这一基本尺寸在版面上作上下 、左右调整位置,以达到精密编排的目 的。16中文信息处理技术中文信息处理技术原理与应

10、用原理与应用 二、批处理和交互式排版早期的排版软件,是以批处理方式执行的。也 就是用编译方式得出目标程序。至少要在一组 排版命令输入后才能执行和得出结果。近几年 来发展的是一种交互式操作的排版方式,也就 是解释执行的排版方式。计算机可以对每一条 排版命令产生即时和正确的反应。需要解决反 馈显示中的一些技术问题,可以实现全交互式 的排版操作,也即国内目前流行的“即打即排 ”操作,将成为另一种流行的排版方式。 17中文信息处理技术中文信息处理技术原理与应用原理与应用 三、排版应用软件在排版应用方面,国内已积累了不少成果。如 能够编排各种文科书版、刊物,各种科技书版 ,复杂的数学公式和各种化学分子式

11、、符号也 能自动编排。还能整版地编排各种大、小幅面 的报版。将多窗口显示技术用于排版处理;开发以图形 处理为特点的排版技术;吸收目前国内外流行 的组版软件包的功能;增加鼠标器定位,用菜 单选择方式指定排版要求的功能;开发、改善 对用户的友好界面,尽可能地方便用户使用。18中文信息处理技术中文信息处理技术原理与应用原理与应用 电子印刷排版系统多个层次等级 精密汉字照排系统台式印刷排版系统普及型轻印刷系统上述三种档次等级的中文印刷排版系统应平行发展,它们各 有自己的特点和适用范围。其中普及型的轻印刷系统可以和高档 的中文文字处理机或PC兼容机相衔接。19中文信息处理技术中文信息处理技术原理与应用原

12、理与应用 电子印刷排版系统相关方案和产品介绍网络时代的方正报业数字化流程方案 20中文信息处理技术中文信息处理技术原理与应用原理与应用 方正自动化排版解决方案 21中文信息处理技术中文信息处理技术原理与应用原理与应用 22中文信息处理技术中文信息处理技术原理与应用原理与应用 23中文信息处理技术中文信息处理技术原理与应用原理与应用 24中文信息处理技术中文信息处理技术原理与应用原理与应用 中文信息检索系统 情报资料检索是现代化管理技术中的重要项目 之一。也是计算机信息处理领域内的一个重要 应用项目。 情报资料不仅包括科技情报,也包括一般的图 书资料,文献档案、新闻报导,事实数据等, 用途非常广

13、泛。早期的情报资料检索系统,都是以文件系统的 形式建立,作业方式以批处理为主。自从数据 管理系统技术推广应用后,情报资料检索系统 也以数据库系统的形式建立,应用上有更大的 灵活性,提供查找情报资料的方便性,提高了 信息的利用率。25中文信息处理技术中文信息处理技术原理与应用原理与应用 由于计算机的性能速度的提高,运行方式也以多用户 联机实时操作为主。中文情报检索技术和英文检索在原理上完全相同。一 个中、英文兼容的系统,在系统中建立用中文代码表 达的原始文档,就可以用作中文情报资料的检索。若 是用数据库管理系统来管理中文情报资料的情况,则 数据库管理系统也必须具有中、英文兼容的功能。 由于汉语单

14、字或词组之间没有明显的分隔符,因此对 于汉语信息的检索实际上要比西文基于单词的检索困 难得多。国内有众多单位在研究汉语分词技术,中文文本的标 引技术,中文文献的自动分类方法等。26中文信息处理技术中文信息处理技术原理与应用原理与应用 信息、知识、文献 一 信息信息是用文字、数据或信号等形式通过一定的 传递和处理来表现各种相互联系客观事物在运 动变化中所具有特征内容的总称。信息所具有的基本属性可归结为以下四方面: (1)信息具有普遍性和客观性 (2)信息具有相对性和特殊性 (3)信息具有实质性和传递性(4)信息具有中介性和共享性27中文信息处理技术中文信息处理技术原理与应用原理与应用 二 知识知识是人类在认识和改造世界的社会实践中获 得的对事物本质的认识的成果和结晶。即人类 通过有目的、有区别、有选择地利用信息,对 自然界、人类社会及思维方式与运动规律的认 识、分析与掌握,并通过人的大脑进行思维整 合使信息系统化而

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号