《中文信息处 》ppt课件

上传人:tia****nde 文档编号:67018565 上传时间:2019-01-06 格式:PPT 页数:91 大小:1.49MB
返回 下载 相关 举报
《中文信息处 》ppt课件_第1页
第1页 / 共91页
《中文信息处 》ppt课件_第2页
第2页 / 共91页
《中文信息处 》ppt课件_第3页
第3页 / 共91页
《中文信息处 》ppt课件_第4页
第4页 / 共91页
《中文信息处 》ppt课件_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《《中文信息处 》ppt课件》由会员分享,可在线阅读,更多相关《《中文信息处 》ppt课件(91页珍藏版)》请在金锄头文库上搜索。

1、,第五章 中文信息处理,汉字字形和字形库管理技术,内容,汉字字形概述 字形描述技术 字形的压缩和还原 字形的放大和缩小 TTF字形技术 字库的设计和管理技术 汉字字库的应用,5.1 汉字字形概述,汉字字形及其特点 字形、字型和字形库 字形描述技术及其种类,5.1.1 汉字字形及其特点,汉字字形指的是汉字形体结构的图像。 汉字字形的特点: 汉字的字形呈方块形 汉字从字形上可以分成各种结构 汉字字形的分解方法和分解标准尚未统一,常用的字形分解方法一般从单字、字根、笔画(或笔形)和形素这四个层次入手。,5.1.2 字形、字型和字形库,字形:字符的一个实例。 有的时候,几个字符可以合成一个字形,例如美

2、元符号: 一个“S”形状加上一根竖线: 一个“S”形状加上一根割断的竖线: 一个“S”形状加上两根竖线: 一个“S”形状加上两根割断的竖线: 汉字的字形更加复杂,我国制定了一系列的国家标准来严格定义各种字符集中字符的字形。,5.1.2 字形、字型和字形库(续),字型:某一个字体的实例,如某个特定的磅值。 西文的印刷字型有: serif sans serif script 中文使用的主要字型有: 宋体 仿宋体 楷体 黑体,5.1.2 字形、字型和字形库(续),西文字型和中文字型的对应关系,5.1.2 字形、字型和字形库(续),字形库中存储的是某个集合所有字符的字形信息。 实际上,字形库是一个计算

3、机的存储器系统,它的设计、管理和使用原则上与计算机存储器系统是一致的。,5.1.3 字形描述技术及其种类,字形描述技术是以数字代码描述字的形状,在输出版面的时候,由计算机将代码还原,恢复字原来的形状,由输出设备输出。字形描述技术也被称为字形压缩还原技术。 字形描述技术的水平高低,不仅决定了输出字的速度、字形美观和输出效果,同时也影响到: 字库存储空间 字形还原的计算量,5.1.3 字形描述技术及其种类(续),字形描述技术描述一般可分为: 点阵字形描述技术 轮廓矢量字形描述技术 曲线轮廓字形描述技术,5.2 字形描述技术,点阵字形描述技术 轮廓矢量字形描述技术 曲线轮廓字形描述技术 其他字形描述

4、技术,5.2.1 点阵字形描述技术,汉字点阵的规模一般是:m2n m2n 在一般情况下,16 16点阵和24 24点阵使用的比较多。随着激光印字机、激光照排机、图文记录机等输出设备分辨力的提高,又有了48 48、96 96、128 128、256 256、512 512、1024 1024的点阵字库。 下面以16 16点阵介绍点阵字形描述的方法。,5.2.1 点阵字形描述技术(续),把一个方块横向分成16格,纵向也分成16格,形成256个小方格,即该矩阵有256个“点”。每一个点可以有黑、白两种颜色。 用这样的点阵覆盖到汉字上,凡是与笔画重叠的点,规定它是黑色;凡是不与笔画重叠的点,规定它是白

5、色。,5.2.1 点阵字形描述技术(续),汉字“啊”的点阵字形,汉字“啊”点阵字形数字化表示,5.2.1 点阵字形描述技术(续),一个汉字点阵字形的存储量: 16 16:256位,即32个字节 24 24:72个字节 32 32:128个字节,5.2.1 点阵字形描述技术(续),横向点阵:每个点阵数字代码均描述汉字横向点的情况。数字代码是顺序从左到右、自上而下扫描点阵各点状态而形成的。一般适用于显示器 。 纵向点阵:每个点阵数字代码均描述汉字纵向点的情况。数字代码是顺序从上到下、自左至右扫描点阵各点状态而形成的。一般适用于打印机,5.2.1 点阵字形描述技术(续),16 16横向点阵的情况,5

6、.2.1 点阵字形描述技术(续),汉字“啊” 用横向点阵来表示,其数字代码是: 00H、04H、2FH、7EH、F9H、04H、A9H、04H、AAH、14H、AAH、7CH、ACH、54H、AAH、54H、AAH、54H、A9H、54H、E9H、74H、ADH、54H、0AH、04H、08H、04H、08H、14H、08H、0CH,5.2.1 点阵字形描述技术(续),16 16纵向点阵的情况,5.2.1 点阵字形描述技术(续),汉字“啊”用纵向点阵来表示,其数字代码是: 3FH、F0H、20H、20H、7FH、F0H、20H、00H、7FH、FFH、42H、10H、4DH、88H、70H、7

7、0H、00H、00H、47H、F0H、44H、20H、4FH、F2H、44H、01H、FFH、FFH、40H、00H、00H、00H,5.2.1 点阵字形描述技术(续),各种精度的点阵字形其特点和用途 : 16 16(简易型) 24 24(普通型) 32 32(提高型) 其他更高精度的点阵字形,5.2.2 轮廓矢量字形描述技术,轮廓矢量字库的出现是为了改进点阵字库锯齿状轮廓,同时也是因为绘图机用笔输出的需要而发展起来的一种字形描述技术。 轮廓矢量的字形描述技术的核心是用多条直线逼近字形,并进行封闭处理,字形效果明显改观。,5.2.2 轮廓矢量字形描述技术(续),轮廓矢量字形描述技术的直角坐标系

8、,5.2.2 轮廓矢量字形描述技术(续),5.2.2 轮廓矢量字形描述技术(续),轮廓字库解决了点阵字库缩放后失真的问题。这种字形描述技术对汉字横平竖直的字形有很好的描述效果,但对于撇、捺、点,以及圆弧装饰效果的字体,仍然不能十分逼近字形,而且字体放大之后,轮廓仍然具有折线感。 在大的点阵做成的矢量轮廓字库缩小到很小或小的点阵做成的矢量字放大得很大时,都会带 来失真。 因此大号字用256256点阵为基础的矢量轮廓,而小号 字仍用9696或128128点阵为基础的矢量轮廓。,5.2.3 曲线轮廓字形描述技术,曲线轮廓字库是以二次曲线和三次曲线逼近字形轮廓的字形描述方法。其中以PostScript

9、字形描述技术为代表。 PostScript字形描述技术是用美国Adobe公司的PostScript页面描述语言来描述字形的一种技术。其特点是以贝塞尔曲线(Bezier curve)拟合文字形状,比较完整地保留了文字原有的字形信息。,5.2.3 曲线轮廓字形描述技术(续),解决字形质量的失真问题: 特征参数:对用直线、二次曲线或三次曲线描述字形轮廓的字形描述技术的一种补充。 智能复原:依靠字形复原软件的判断和处理来保证字形复原的质量,而字形描述本身不包含很多的特征信息。,5.2.3 曲线轮廓字形描述技术(续),PostScript Type 1语言中的特征参数: 字符级特征参数: hstem/v

10、stem:给出水平/垂直笔段的位置和宽度。 hstem 3/vstem 3:给出等距等宽的三个平行笔段的位置和宽度。 字库级特征参数: StdHW, StdVW, StemSnapH, StemSnapV:给出字库中字符的标准笔画宽带,或者笔画宽度的跳跃变化,参数为宽度值的数组。 BlueValues:给出西文字形的准线位置,参数为准线位置的数组。,5.2.3 曲线轮廓字形描述技术(续),部分笔画水平段的情况,5.2.3 曲线轮廓字形描述技术(续),笔锋高度的测量,5.2.3 曲线轮廓字形描述技术(续),字库中每个汉字的特征参数生成完毕以后,还要添加合适的字库级特征参数,主要包括: 笔画标准宽

11、度StdHW/StdVW 笔画宽度的跳跃变化StemSnapH/StemSnapV,5.2.3 曲线轮廓字形描述技术(续),比较有影响的PostScript西文字库有: Type 1 Type 3 Type 5 国内用PostScript语言描述的轮廓字体只有以Type 1 和Type 3的格式做出的字库。,5.2.3 曲线轮廓字形描述技术(续),用PostScript技术描述汉字时,在字符笔画过大、字又太细长时,软件为了要显示所有黑色笔画就会忽略笔画间的空白,造成笔画重叠、比例变形等问题。 对于低分辨力的输出设备(如显示器和针式打印机),这种字库的输出效果反倒不如点阵字库优越,即使增加大量的

12、特征参数描述也得不到较大的改善。因此也采用字库中包含点阵字库用于输出小字号文字的变通方法。,5.2.4 其他字形描述技术,TrueType字库。微软公司协助苹果公司开发并于1990年底推出TrueType字库。这种字库放弃以三次曲线逼近字形轮廓的优点,而采用二次曲线逼近字形轮廓。TrueType字库有精心设计的特征参数处理。 Folio字库。在Unix作站的领域中,有Sun公司的Folio字库技术。由于Sun工作站在美国广泛用于社团和专业用的出版系统,因此Folio F3字形描述格式也是值得一提的字形描述技术。 智能字库(Intellifont)。由爱克发计算机国际公司开发,用于惠普系列激光印

13、字机。,5.3 字形的压缩和还原,什么是字形的压缩和还原 字形点阵的压缩和还原 轮廓矢量字形的压缩方法 其他字形压缩技术,5.3.1 什么是字形的压缩和还原,对于正式出版物来说,文字分辨率需29.2线/毫米以上。因此,最常用的五号汉字点阵为108 108,特大号字则为576 576。 不同精度的点阵表示一个汉字需要的字节数: 4848 288 9696 1152 128128 2048 2K 256256 8192 8K 512512 32768 32K 1024 1024 131072 128K,5.3.1 什么是字形的压缩和还原(续),512512点阵字库 GB2312字符集 宋体、楷体、

14、黑体、仿宋体4种字体 字库容量是845.375M 10241024点阵字库 GB2312字符集 宋体、楷体、黑体、仿宋体4种字体 字库容量是3381.5M,5.3.1 什么是字形的压缩和还原(续),字形信息压缩技术应满足以下几方面要求: 字形信息压缩技术不允许信息压缩后丢失或发生错误,也就是说压缩信息能正确再现原字形信息,否则在文字复原时将会引起字形畸变。 字形信息压缩过程应当简便易行,并且可用专门的软件和硬件自动完成,便于用户独立进行缺字补充的操作。 由文字字形压缩信息向最终输出的点阵字形信息的转换应当迅速可靠。 压缩效果显著。,5.3.1 什么是字形的压缩和还原(续),追求压缩效果和文字复

15、原速度这两个指标是相互冲突的,因为压缩倍率越高,字形复原过程就越复杂,复原工作量也越大,文字还原速度也就越慢。 事实上,任何字形信息的压缩方法都是以损失文字复原速度和输出速度为代价而换来存贮空间的节约的。 评价一种字形压缩技术的优劣,不仅要看信息压缩倍率的高低,而且还要看是否能做到快速复原。不能进行快速文字复原的字形压缩方法是不实用的。,5.3.2 字形点阵的压缩和还原,黑白段表示法 黑白段表示法是考虑到汉字笔画中黑白连续变化的特点而产生的压缩方法。 压缩时计算机逐行地数取点阵中的空白点数(白段)和非空白点数(黑段), 按一定格式相间地记录下一串数字构成行点阵信息。 同样也可用重复行数来压缩相

16、邻的重复行信息。 行标志重复行数白段黑段白段黑段 * N W1 B1 Wn Bn,5.3.2 字形点阵的压缩和还原(续),线性增量表示法 采用黑、白段信息格式,保留上述的竖直压缩,增加一种新的压缩格式。 线性增量表示法用以处理汉字笔画中大量存在的斜线。 在一行黑、白段记录信息的后面再注明线段的增量,这样下一行的黑、白段长度在上一行的基础上按增量的大小作相应的变化。,5.3.2 字形点阵的压缩和还原(续),行标志重复行数白段白段增量黑段黑段增量 * N W1 W1 B1 B1 白段白段增量黑段黑段增量 Wn Wn Bn Bn 用增量记录的行数要超过两行(n大于2),压缩才有意义。 第1行是不考虑增量值的黑、白段信息,最后一行是加上相应增量后的黑、白段信息,中间的n-2行的黑白段长段均在上一行的长度基础上,加上线性增量来补齐的。,5.3.2 字形点阵的压缩

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号