基于n联字的汉字识别后处理研究

资源描述

《基于n联字的汉字识别后处理研究》由会员分享，可在线阅读，更多相关《基于n联字的汉字识别后处理研究（8页珍藏版）》请在金锄头文库上搜索。

1、中文信,息学报第卷第期基于联字的汉字识别后处理研究苗兰芳张森周昌乐杭州大学计算机系【摘要】为了提高汉字识别率,本文提出了在单个汉字的初级识别后,利用联字的上下文关系,对初级识别中拒识或不确定的汉字语段作进一步确认的一种方法,阐明了联字后处理方法的基本思想,给出了实现此方法的数据库的结构设计方案和理论算法,分析了理论上可提高的识别率,最后给出了一个联字汉字识别后处理系统模型。关键字汉字识别联字数据库后处理一、月青计算机汉字识别是指用计算机建立视觉系统,自动认识印刷或书写在纸上的汉字随着模式识别技术和人工智能原理的日臻完善,汉字识别的研究得到了不断发展,近十年来,在印刷体,

2、手写体汉字识别的研究领域内取得了一些可喜的成果,但当前存在的问题是识别率较低,还不能进人实用阶段,因此,如何提高汉字识别率,尤其是手写体汉字识别是计算机汉字信息处理领域中一个及其重要的课题从识别方法上来看,目前汉字识别方法的主流是统计方法和句法方法。这二种方法都已经有了较长的历史,积累了很多成熟的经验。但由于在实际应用中汉字书写技术的原因,仅仅使用上述方法已不可能提高汉字识别率。因此,有必要另寻一条作为补充识别的方法。即在上述识别方法的基础上,对那些不能确认的汉字加以进一步处理,以提高识别率。这种对识别结果代码文件进一步加工,提高系统识别率称为识别后处理,简称后处理。到目前为止,尽管有人

3、提出根据汉字文本的上下文关系来进行后处理,如中文词切分后的完整匹配和自然语言理解上下文匹配,但都没有具体的实施方案。本文提出了一种基于联词即为大于等于的整数变量的汉字识别后处理的方法,不但能较方便地实施,而且还能明显地提高汉字识别率本文年月日收到一一二、联字后处理方法的基本思想为了能更好地表达间题,先作如下定义定义如果汉字,具有前后联系,即能使,。有意义,则我们称,”。为联字,其中为大于或等于的整数变量,因此,当时,有二联字时,有三联字,例如“人才、人称、大人、敌人,是关于“人”的二联字“主人翁、人生观、接班人、是关于“人的三联字定义联字,二,。也可称其为在第位的联字例如联字,也可称第位,第位

4、,第位的联字定义例子中,“人才、人称”是“人为第一位的二联字,“大人、敌人”是“人为第二位的二联字“主人翁”是“人”为第二位的三联字定义联字频率几个联在一起的字,共同出现的先验概率字频某个汉字在所有汉字中出现的频率不确定汉字在初次识别中不能确定的汉字,包括拒识汉字。相似度待识汉字和不确定汉字的相似程度在联字汉字识别后处理法中,首先建立一个初级单个汉字识别中不确定的汉字库以及这些汉字在第位第位一直到第位时的联字字库及其相应的联字频率,然后根据由单个汉字识别时所提供的不确定汉字的相似度,不确定字本身的字频和不确定汉字在各位时的联字频率几,的综合评判函数值的大小来确定汉字。即一,附,乃,乃一

5、几式中几流,乃,八为待识汉字在各位时的联字频率如图一所示一图一通常取综合评判函数为这些因素的加权和。即尤。丑尤。甲艺尤式中为加权系数自然,采用联字后处理法,在几个待确识的相近字中确定汉字时,某一个字的函数值愈大,识别为该不确定字的可能性也愈大具体地说,在汉字串二,、十,一,中,为不确定汉字子集,即,为子集字数。,为已识别汉字,那么,要确定必需一一分别计算对应每一个不确定汉字一, 时的综合评判函数值,即要计算下列矩阵式一汗凡上式称为汉字识别矩阵式,二为单个汉字识别时给出的不确定子集中每个汉字和待识汉字之间的相似度,二,对应不确定子集中每个汉字的字频,它们由前人统计数字库给出,对应不确

6、定子集中每个汉字的第位联字频率,这些由事先统计好的联字库中查到因此,只要计算出上述矩阵,根据值的大小,就能确定出待识汉字即如果存在,使一切且件,有,则所对应的汉字为确定汉字。由此推知当,时有二联字后处理法和三联字后处理法,其综合评判函数分别为双,甲,甲,几。,几二尺,邢,附,。,几。,几二特别地,有混合型联字后处理法,如混合型一联字后处理法,这是一种联字和联字混合使用的后处理法。这种方法需要建立的联字库是不确定字在第一位,第二位的二联字库和不确定字在中间的三联字库。其综合评判函数为丑,附,几二,二。显然这种方法比纯三联字后处理法少统计两个汉字,从而减少了很多统计量,同时,它比二联字后

7、处理法多了一项考虑因子,提高了汉字的确识度,因此,混合型一联字后处理法具有比纯联字,纯联字后处理法更优越的特点,不失为一种较好的后处理法。如“办公自动化”中,现假设化,物为不确定子集,“自动、动化、动物”都是“动”的二联字,按二联字后处理,“自动化”有可能识别为“自动物”但按混合型一联字后处理法一定是“自动化”了三、联字后处理法的具体实施不确定汉字集的生成将初级汉字识别后的不确定的汉字子集统计起来,生成一个全体不确定字字集及其相应的字频集即一艺,其中,为不确定汉字子集,为不确定子集数且二,茄,为不确定汉字子集的汉字数。一一一般情况下,各个子集中的不确定字不全是没有重复的,即存在,护空特沮,

8、因此,统计过程中,应去掉重复出现的不确定字现设不确定汉字子集事先存在一个队列中统计后的全体不确定字集存在中当前正在统计的不确定子集放在中则统计生成全体不确定字的算法过程可描述如下初始化空空不空做从队列中取一个子集到中将中每个没在中出现过的不确定字按汉字内码大小插人队列中令为空再根据已有资料在中每个汉字相应的位置上写上字频不确定汉字的联字库的设计和生成为了检索方便,也为了数据的压缩,联字库的设计如图二所示、不确定汉字索引库此库由若干项组成,每个项存放一个不确定字的索引信息,项序号和内码变化方向一致,即序号小的存放内码小的汉字,整个结构描述如下二,不确定字数只每个项的长度字节单位汉字内码汉

9、字字频附个指针分别指向该汉字在个联字库中的联字首块号、各位联字库困,。共有个联字库,每个库由若干个定长的联字块组成,每个由若干项组成,每项有一个汉字和一个联字频率组成,每个块尾附带一个链接指针困,因为联字块是定长的,所以当一个块容纳不下同一个不确定字的联字时,就用下一个联字块表示,指针指示这个后继块号,综上,联字库可表示如下,块数,项数指针,一该联字频率心二不全本块联字结束其它正整数块号数字一一不确定字库第位联字库第位联字库旧第位联字库一侣口口口口口口口图二口口、联字库的生成统计不确定字的联字库时,选定大量具有针对性,代表性,完备性的语言材料,对全体不确定汉字集中的每个不确定字找出统计

10、该不确定字各位联字及其出现频率几。,二,放在各位联字链表中,最后将每个不确定的各位联字及其频率以上面指定的格式存人到文件中由此,生成了一个不确定字的各位联字及其频率的数据库。在这个数据库中,检索某个汉字的各位联字的过程如下第一步在索引文件中找到该字所在的项第二步在该项中取出各位联字的起始块号第三步在每个相应的联字库中取出相应块号所对应块及其所有后继块如果存在的联字及其频率同样,这种结构下的不确定字及其联字的增加也相当容易联字后处理法的核心程序定义设是初次汉字识别后的结果汉字串,其中公为不确定语段,为语段中不确定字数,。,为不确定语段前、后联字,且,叶属于确定汉字,空,而是一个的不确定字集

11、,为的不确定字数一般说来,不确定字集中都是些形相近的字,由初级汉字识别给出。如土士,己已,人人等等因此,在含有不确定语段的汉字串“是人,八,人类粪文明”中,是,文定义每个不确定汉字的评价函数为各个因素的加权和,即。尤。丑。艺了砰。确识规则评价函数值最大的那个汉字,被定为确识后的汉字一一例如对于语段是人八人类粪文明,采用为的二联字后处理法,各个二联字频率如图三所示,综合评价函数为场知加权系数都为显然是,文,一文明哭。入、入一一一类丫、又一是图三因此,确定时有,二显然最大,所以人同理最大,所以类。根据上述定义,我们设初识后的不确定语段少二存在队列中,确定后的语段存人队列中,当前正在识别的不

12、确定汉字子集存人队列中,则后处理识别算法可描述为令空空子空做从不确定语段队列中取不确定子集放人中中汉字个数手个清缺省标志不空从中取一个汉字该汉字存在于全体不确定字集中计算相应的值令空置缺省标志如果为不缺省且只存在一个最大的值则将中值最大的那个汉字送人氏否则拒识该汉字并将拒识标志送人中将中汉字送人仇令空将中汉字逐个输出算法中计算的过程如下在不确定字索引文件中取出该不确定字的各位联字块首置在各个联字块中取出该不确定字的所有联字包括后继联字块中的联字计算所有联字的值将最大的值返回理论上可以证明该算法是正确的四、汉字识别后处理系统汉字识别后处理系统由后处理核心确认程序、全体不确定字及联字库组成,将这

13、个系统祸合到原先的汉字识别系统闭上如图四所示而成为扩展汉字识别系统。图四原原始识别系统统统统统统统统统核心确认程序序语语言材料料全全体不确定字字字有索引的联字库库该系统理论上可提高的识别率设初识系统字符集个数为,正识别率为拒识率为,误识率为,误识字库字数,联字条数,则后处理中提高的识别率为其中是与后处理系统性能有关的系数,如不确定字数,联字条数及后处理算法等等这些因素有关,的取值范围为一之间例如假设,系统性能系统,则提高的识别率为“由此可知提高确识率的措施有要有一部相对全的误认字及其联字字库经过单个字识别后的识别率应在一定值之上一一初级识别中,在保证正确识别率的同时,应尽量增加拒识率,减少

14、误识率,五、实验和结论本文从最初步的联字的上下文关联利用思想人手,具体从理论上讨论了一种汉字识别后处理方法,形式给出了确认汉字不确定语段的理论算法在此理论基础上,我们用为的联字汉字识别后处理法做了一系列测试实验,良好的实验结果证明了该方法确能明显提高汉字识别率,因此基于联字的汉字识别后处理系统,不但实现了理论的设想,而且也证实了结论参考文献【崔国伟、舒文豪、李仲荣,关于联想式汉字识别后处理方法的研究,模式识别与人工智能,第卷,第期,年月张忻中、沈兰生,印刷体汉字识别技术在我国的发展和应用,中文信息学报,哄】厄尔曼著文字图形识别技术,人民邮电出版社周昌乐、马希文,基于互动计算的汉字楷书识别自动化学报,第期叶乃奉、张忻中、夏莹编,汉字微型计算机与汉字识别,机械工业出版社一一,一一,一,一一一一

展开阅读全文