汉字点阵字库的建立

上传人:cl****1 文档编号:585759688 上传时间:2024-09-03 格式:PPT 页数:28 大小:129.50KB
返回 下载 相关 举报
汉字点阵字库的建立_第1页
第1页 / 共28页
汉字点阵字库的建立_第2页
第2页 / 共28页
汉字点阵字库的建立_第3页
第3页 / 共28页
汉字点阵字库的建立_第4页
第4页 / 共28页
汉字点阵字库的建立_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《汉字点阵字库的建立》由会员分享,可在线阅读,更多相关《汉字点阵字库的建立(28页珍藏版)》请在金锄头文库上搜索。

1、汉字点阵字库的建立与提取汉字点阵字库的建立汉字点阵的重要性汉字点阵的重要性汉字点阵的使用优点汉字点阵的使用优点汉字点阵字库的建立汉字输出码汉字无论字形如何变化、笔划多少都可以写在方块中一个方块可以看作m行n列的矩阵,称为点阵,汉字的点阵字形在计算机中称为字模汉字经过点阵的数字化转换成数字,称为汉字的输出码一个字节有8bit,m*n点阵的阵列可以用m*n/8个字节表示存储空间根据选择点阵的不同而不同,点阵的行列数越多汉字越精细,但存储空间越多汉字点阵字库的建立汉字点阵阵列汉字点阵字库的建立点阵的分辨率点阵的放大汉字点阵字库的建立汉字点阵字库的建立汉字点阵字库的建立汉字编码的种类汉字编码中现在主要

2、用到的有三类:Big5、GBK和GB2312Unicode编码GB18030汉字点阵字库的建立GB2312编码1、GB2312是一个简体中文字符集的中国国家标准,由中国国家标准总局发布,1981年5月1日实施。GB2312通行于大陆、新加坡等地。几乎所有的中文系统和国际化的软件都支持GB2312。它是一个简化字的编码规范,当然也包括其他的符号、字母、日文假名等,共7445个图形字符,其中汉字占6763个。我们平时说6768个汉字,实际上里边有5个编码为空白,所以总共有6763个汉字汉字点阵字库的建立GB2312汉字编码规则GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七

3、位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节。GB2312字符集构成一个94行、94列的二维表,行号称为区号,列号称为位号,每一个汉字或符号在码表中的位置用它所在的区号和位号来表示。汉字点阵字库的建立区位码为了处理与存储的方便,每个汉字的区号和位号在计算机内部分别用一个字节来表示。例如,“学”字的区号为49,位号为07,它的区位码即为4907,用2个字节的二进制数表示为:00110用十六进制数表示即为3107H汉字点阵字库的建立汉字交换码区位码无法用于汉字通信,因为它可能与通信使用的控制码(0

4、0H1FH)(即031)发生冲突。ISO2022规定每个汉字的区号和位号必须分别加上32(即二进制数00100000),经过这样的处理而得的代码称为国标交换码,简称交换码,因此,“学”字的国标交换码计算为:0011000100000111+00100000+00100000-0101000100100111用十六进制数表示即为5127H。汉字点阵字库的建立汉字内码由于文本中通常混合使用汉字和西文字符,汉字信息如果不予以特别标识,就会与单字节的ASCII码混淆。此问题的解决方法之一是将一个汉字看成是两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位都为1。这种高位为1的双字节汉字编码

5、即为GB2312汉字的机内码,简称为内码。因此,“学”字的机内码为:11010用16进制表示即为D1A7H。汉字点阵字库的建立GB2312编码表区号字数 字符类别0194一般符号0272顺序号码0394拉丁字母0483日文假名0586Katakana0648希腊字母0766俄文字母0863汉语拼音符号0976图形符号10-15备用区16-553755 一级汉字,以拼音为序56-873008 二级汉字,以部首笔划为序88-94备用区汉字点阵字库的建立Big5编码、Big5又称大五码,主要为香港与台湾使用,即是一个繁体字编码。每个汉字由两个字节构成,第一个字节的范围从0X810XFE(即129-2

6、55),共126种。第二个字节的范围不连续,分别为0X400X7E(即64-126),0XA10XFE(即161-254),共157种。汉字点阵字库的建立GBK编码、GBK是GB2312的扩展,是向上兼容的,因此GBK中的汉字的编码与GB2312中汉字的相同。另外,GBK中还包含繁体字的编码。GBK中每个汉字仍然包含两个字节,第一个字节的范围是0x81-0xFE(即129-254),第二个字节的范围是0x40-0xFE(即64-254)。GBK中有码位23940个,包含汉字21003个。 汉字点阵字库的建立名称第一字节第二字节GB23120xA0-0xF7(176-247)0xA0-0xFE(

7、160-254)GBK0x81-0xFE(129-254)0x40-0xFE(64-254)Big50x81-0xFE(129-255)0x40-0x7E(64-126)0xA10xFE(161-254)汉字点阵字库的建立Unicode编码随着互联网的迅速发展,进行数据交换的需求越来越大,不同的编码体系越来越成为信息交换的障碍,而且多种语言共存的文档不断增多,单靠ANSI代码页已很难解决这些问题,于是Unicode应运而生。前面提到从ASCII、GB2312、GBK的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”

8、字的Unicode编码是6C49,而GB码是BABA。Unicode采用两个字节编码体系,因此它允许表示65536个字符,这已能满足目前大多数场合的需要。前128个Unicode字符是标准的ASCII字符,接下来的128个扩展的ASCII字符,其余的字符供不同语言的文字和符号使用。其版本V3.0于2000年公布,内容包括字母和符号10236个、汉字27786个、韩文拼音11172个、造字区6400个、保留20249个,控制符65个。汉字点阵字库的建立GB18030标准标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T11383的编码结构与规则,使用000至07F码位(对应

9、于ASCII码的相应码位)。双字节部分,首字节码位从081至0FE,尾字节码位分别是040至07E和080至0FE。四字节部分采用GB/T11383未采用的030到039作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为081308130到0FE39FE39。其中第一、三个字节编码码位均为081至0FE,第二、四个字节编码码位均为030至039。汉字点阵字库的建立如果判断字符是西文字符还是中文字符根据字节的最高位进行判断如何确定一个汉字在字库编码表中位置(C1-0xa1)*94+(C2-0xa1)汉字点阵字库的建立课程设计内容要求课程设计内容要求要求编写一个 应用程序,设计一种汉字的点

10、阵存储方式,从WINDOWS的汉字矢量字模中提取出汉字点阵字模,并演示提取出的汉字点阵字模效果。程序具体要求为:采用文本菜单界面,鼓励采用图形菜单界面;程序可以实现选择不同的WINDOWS字体(宋体,楷体,黑体等);程序可以实现选择生成存取点阵字库的文件(*.BIN);程序可以实现选择生成不同的点阵大小(16,20,24,32,48);程序可以实现输入生成字库的DEMO字数(13000);程序可以显示版本内容,包括论文作者、学号及编译日期;字库的文件根据设计的编码规则进行存储;在点阵提取过程中,在程序窗口两侧可以同时显示矢量字模与点阵字模,以便进行比较;u鼓励自行增加新功能,比如增加文本输入,

11、可以只对输入的汉字文本内容提取点阵字模;u点阵字模的两维放大与优化算法探讨汉字点阵字库的建立课程设计内容要求课程设计内容要求源程序要有适当的注释,使程序容易阅读。 课程设计报告要求独立完成软件建议使用C语言汉字点阵字库的建立参考资料C语言程序设计谭浩强等编,清华大学出版社C程序设计上机指导谭浩强主编,清华大学出版社C语言贯通教程,史斌星,清华大学出版社软件课程设计指导书,自编实验手册TurboC使用大全第一册、第二册徐金梧等编译汉字点阵字库的建立考核方式考核方式平时考勤及项目日志;中期检查项目进度,后期检查实验结果或演示效果;最终考核项目完成质量;课程设计报告书规范完整性,书写是否认真、工整;

12、独立分析解决问题的能力和创新精神;是否有抄袭现象汉字点阵字库的建立成绩评定成绩评定优:具有独立分析解决问题的能力和创新精神或对某一方面有深入探讨;良:在完成基础部分的基础上涉及提高部分;中:较好的完成设计任务中的基础部分。及格:基本完成设计任务中的基础部分;不及格:未完成设计任务,或者有抄袭现象汉字点阵字库的建立课程设计报告基本格式具体设计任务;基本思路及应用程序功能的详细说明;方案设计(主要算法说明、程序框架设计);程序的源代码清单;程序流程图调试过程中出现的问题及相应解决办法;个人体会及建议;参考资料。汉字点阵字库的建立联系方式罗白云罗白云027- lbyun5188办公:西一楼310、311室汉字点阵字库的建立谢谢!汉字点阵字库的建立

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号