汉字点阵字库的建立

上传人:jiups****uk12 文档编号:45958074 上传时间:2018-06-20 格式:PPT 页数:28 大小:215.51KB
返回 下载 相关 举报
汉字点阵字库的建立_第1页
第1页 / 共28页
汉字点阵字库的建立_第2页
第2页 / 共28页
汉字点阵字库的建立_第3页
第3页 / 共28页
汉字点阵字库的建立_第4页
第4页 / 共28页
汉字点阵字库的建立_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《汉字点阵字库的建立》由会员分享,可在线阅读,更多相关《汉字点阵字库的建立(28页珍藏版)》请在金锄头文库上搜索。

1、汉字点阵字库的建立 与提取 汉字点阵的重要性 汉字点阵的使用优点汉字输出码 汉字无论字形如何变化、笔划多少都可以写在方 块中 一个方块可以看作m行n列的矩阵,称为点阵,汉 字的点阵字形在计算机中称为字模 汉字经过点阵的数字化转换成数字,称为汉字的 输出码 一个字节有8bit,m*n点阵的阵列可以用m*n/8个 字节表示 存储空间根据选择点阵的不同而不同,点阵的行 列数越多汉字越精细,但存储空间越多汉字点阵阵列 点阵的分辨率 点阵的放大汉字编码的种类 汉字编码中现在主要用到的有三类:Big5 、 GBK和GB2312 Unicode 编码 GB18030 GB2312编码 1、GB2312是一个

2、简体中文字符集的中国 国家标准,由中国国家标准总局发布, 1981年5月1日实施。 GB 2312通行于大陆 、新加坡等地。几乎所有的中文系统和国 际化的软件都支持GB 2312。 它是一个简 化字的编码规范,当然也包括其他的符号 、字母、日文假名等,共7445个图形字符 ,其中汉字占6763个。我们平时说6768个 汉字,实际上里边有5个编码为空白,所以 总共有6763个汉字 GB2312汉字编码规则 GB2312规定“对任意一个图形字符都采用两个字 节表示,每个字节均采用七位编码表示”,习惯上 称第一个字节为“高字节”,第二个字节为“低字节” 。 GB2312将代码表分为94个区 ,对应第

3、一字节 ; 每个区94个位,对应第二字节。 GB2312字符集构成一个94行、94列的二维表, 行号称为区号,列号称为位号,每一个汉字或符 号在码表中的位置用它所在的区号和位号来表示 。区位码 为了处理与存储的方便,每个汉字的区号 和位号在计算机内部分别用一个字节来表 示。例如,“学”字的区号为49,位号为07 ,它的区位码即为4907,用2个字节的二进 制数表示为: 00110001 00000111 用十六进制数表示即为3107H汉字交换码 区位码无法用于汉字通信,因为它可能与通信使 用的控制码(00H1FH)(即031)发生冲突 。ISO2022规定每个汉字的区号和位号必须分别 加上32

4、(即二进制数00100000),经过这样的 处理而得的代码称为国标交换码,简称交换码, 因此,“学”字的国标交换码计算为: 00110001 00000111 +00100000 +00100000 -01010001 00100111 用十六进制数表示即为5127H。汉字内码 由于文本中通常混合使用汉字和西文字符,汉字 信息如果不予以特别标识,就会与单字节的 ASCII码混淆。此问题的解决方法之一是将一个 汉字看成是两个扩展ASCII码,使表示GB2312汉 字的两个字节的最高位都为1。这种高位为1的双 字节汉字编码即为GB2312汉字的机内码,简称 为内码。 因此,“学”字的机内码为: 1

5、1010001 10100111 用16进制表示即为D1A7H。GB2312编码表 区号 字数 字符类别 01 94 一般符号 02 72 顺序号码 03 94 拉丁字母 04 83 日文假名 05 86 Katakana 06 48 希腊字母 07 66 俄文字母 08 63 汉语拼音符号 09 76 图形符号 10-15备用区 16-55 3755 一级汉字,以拼音为序 56-87 3008 二级汉字,以部首笔划为序 88-94 备用区 Big5编码 、Big5又称大五码,主要为香港与台湾 使用,即是一个繁体字编码。每个汉字由 两个字节构成,第一个字节的范围从0X81 0XFE(即129-

6、255),共126种。第二个 字节的范围不连续,分别为0X400X7E( 即64-126),0XA10XFE(即161-254) ,共157种。 GBK编码 、GBK是GB2312的扩展,是向上兼容的,因 此GBK中的汉字的编码与GB2312中汉字的相同 。另外,GBK中还包含繁体字的编码。GBK中每 个汉字仍然包含两个字节,第一个字节的范围是 0x81-0xFE(即129-254),第二个字节的范围是 0x40-0xFE(即64-254)。GBK中有码位23940 个,包含汉字21003个。名称第一字节第二字节GB23120xA0-0xF7(176-247) 0xA0-0xFE(160-25

7、4)GBK0x81-0xFE(129-254)0x40-0xFE(64-254)Big50x81-0xFE(129-255)0x40-0x7E(64-126) 0xA10xFE(161-254)Unicode 编码 随着互联网的迅速发展,进行数据交换的需求越来越大, 不同的编码体系越来越成为信息交换的障碍,而且多种语 言共存的文档不断增多,单靠ANSI代码页已很难解决这 些问题,于是 Unicode 应运而生。 前面提到从ASCII、GB2312、GBK的编码方法是向下兼 容的。而Unicode只与ASCII兼容(更准确地说,是与ISO -8859-1兼容),与GB码不兼容。例如“汉”字的Un

8、icode 编码是6C49,而GB码是BABA。 Unicode 采用两个字节编码体系,因此它允许表示65536 个字符,这已能满足目前大多数场合的需要。前128个 Unicode字符是标准的ASCII字符,接下来 的128个扩展 的ASCII字符,其余的字符供不同语言的文字和符号使用 。其版本V3.0于2000年公布,内容包括字母和符号10236 个、汉字 27786个、韩文拼音11172个、造字区6400个、 保留20249个,控制符65个。 GB18030标准 标准采用单字节、双字节和四字节三种方式对字符编码。 单字节部分采用GB/T 11383的编码结构与规则,使用 000至07F码位

9、(对应于ASCII码的相应码位)。 双字节部分,首字节码位从081至0FE,尾字节码位分 别是040至07E和080至0FE。 四字节部分采用GB/T 11383未采用的030到039作为对 双字节编码扩充的后缀,这样扩充的四字节编码,其范围 为081308130到0FE39FE39。其中第一、三个字节编 码码位均为081至0FE,第二、四个字节编码码位均为 030 至039。 如果判断字符是西文字符还是中文字符 根据字节的最高位进行判断 如何确定一个汉字在字库编码表中位置 (C1-0xa1)*94 + (C2-0xa1) 课程设计内容要求要求编写一个 应用程序,设计一种汉字的点阵存储方式,从

10、 WINDOWS的汉字矢量字模中提取出汉字点阵字模,并演示提取出的 汉字点阵字模效果。程序具体要求为: 采用文本菜单界面,鼓励采用图形菜单界面; 程序可以实现选择不同的WINDOWS字体(宋体,楷体,黑体等); 程序可以实现选择生成存取点阵字库的文件(*.BIN); 程序可以实现选择生成不同的点阵大小(16,20,24,32,48); 程序可以实现输入生成字库的DEMO字数(13000); 程序可以显示版本内容,包括论文作者、学号及编译日期; 字库的文件根据设计的编码规则进行存储; 在点阵提取过程中,在程序窗口两侧可以同时显示矢量字模与点阵字 模,以便进行比较; u 鼓励自行增加新功能,比如增

11、加文本输入,可以只对输入的汉字文本 内容提取点阵字模; u 点阵字模的两维放大与优化算法探讨课程设计内容要求 源程序要有适当的注释,使程序容易阅读 。 课程设计报告要求独立完成 软件建议使用C语言参考资料 C语言程序设计谭浩强等编,清华大学 出版社 C程序设计上机指导谭浩强主编,清华 大学出版社 C语言贯通教程,史斌星,清华大学出 版社 软件课程设计指导书,自编实验手册 Turbo C 使用大全第一册、第二册 徐 金梧等编译考核方式 平时考勤及项目日志; 中期检查项目进度,后期检查实验结果或 演示效果; 最终考核项目完成质量; 课程设计报告书规范完整性,书写是否认 真、工整; 独立分析解决问题的能力和创新精神;是 否有抄袭现象 成绩评定 优: 具有独立分析解决问题的能力和创新精神或 对某一方面有深入探讨; 良: 在完成基础部分的基础上涉及提高部分; 中: 较好的完成设计任务中的基础部分。 及格: 基本完成设计任务中的基础部分; 不及格:未完成设计任务,或者有抄袭现象 课程设计报告基本格式 具体设计任务; 基本思路及应用程序功能的详细说明; 方案设计(主要算法说明、程序框架设计); 程序的源代码清单; 程序流程图 调试过程中出现的问题及相应解决办法; 个人体会及建议; 参考资料。联系方式罗白云027-办公:西一楼310、311室谢谢!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号