文档详情

一码二形快速中文数字编码输入方法

ting****789
实名认证
店铺
DOCX
21.27KB
约4页
文档ID:308579252
一码二形快速中文数字编码输入方法_第1页
1/4

一码二形快速中文数字编码输入方法专利名称:一码二形快速中文数字编码输入方法技术领域:本发明涉及一种基于数字键盘输入汉字的方法,具体地说是涉及一种可用于在、计算机、PDA及特制鼠标为主的可用数字键盘上进行中文输入和字词典编排的一码二形快速中文数字编码输入方法为实现上述目的,本发明的技术方案包括a、在每个数字键盘上各自设定对应的汉字笔形,其中数字键“1”对应的汉字笔形为“—”和“艹”,数字键“2”对应的汉字笔形为“ニ”和“丨”,数字键“3”对应的汉字笔形为“氵”和拐两个以上弯的单笔画,数字键“4”对应的汉字笔形为“钅”和其中至少一笔为斜状的两单笔相交的笔形,数字键“5”对应的汉字笔形为“木”和一边开口的框,数字键“6”对应的汉字笔形为撇“丿”和向左下方斜的点 数字键“7”对应的汉字笔形为捺“” 和向右下方斜的点“丶”,数字键“8”对应的汉字笔形为“ハ”(含“丷、人”)和“亻”,数字键“9”对应的汉字笔形为“扌”和只拐一个弯的折钩,数字键“0”对应的汉字笔形为“口”和“广”;b、依据上述设定的各种笔形对汉字进行拆分,并按照如下的规则对每个汉字取码(1)按汉字的书写顺序拆分出上述设定的笔形,依次取该字中拆分出的第一、第二、第三和最后的笔形所对应的数字键为代码,作为该汉字的编码,拆分不足四个笔形的字,其编码与实际拆分所得的笔形相对应;(2)合体字第一部位限取两个笔形,第三个笔形必须转入下一个部位获取,第四笔形还是与该字的最后一笔相关的笔形;(3)当同时可取多种笔形时,在默认多笔画笔形优先的前提下再按笔顺优先的原则,选取先写出的笔形;(4)一边开口的框和“口”这些笔形不受笔顺影响,应当整取,但“口”笔形中所含的笔形不与其他笔形连取。

作为对本发明的进一步改进,词或词组的取码按如下规则(1)二字和三字词语依次取前两个字中各自的第一、第二笔形和最后一个字的与最后一笔相关的笔形编码;(2)四字及四字以上的词语取前四个字中的第一笔形和最后一个字中的与最后一笔相关的笔形进行编码;(3)按照上述词或词组的取码规则,当某部位已被前边部位取过而无法取码时,则该部位的代码重复前一代码,使词码的长度始终保持五位数本发明与现有技术相比具有以下的优点第一,重码率极低虽然字码长度仅4码(与一般字母编码长度相同)、词码长度仅5码,重码率却低得出奇本发明由于充分考虑了汉字笔形分布的规律及方便记忆、操作等因素,使得每一数字在字码的四位数中的各个数位上出现的可能性比较均衡,从而克服了四角号码及其他数字编码的根本缺陷(如四角号码“七角八八九是小”的规定,使7在第四位、8和9在第三位出现的可能性极小;而五笔数码“4点捺”的规定,又使得4在首尾两部位出现的可能性太大),充分利用了编码资源,大大降低了重码率从理论上讲,四位数可编1万个汉字;再考虑每屏6字的因素,则理论上可编6万个字而国家语委规定的通用汉字仅为7千个,所以只要方法得当,数字编码重码率过高的现象是可以克服的。

本发明对7千通用字编码后,大多数为一字一码;按每屏6字计,需要翻页(即超过6字重码)的70多处,仅占编码字的7%左右;最高重码字是13、14个,各一处;对于国家语委颁布的3500个常用汉字来说,全部可以在首屏出现这么低的重码率,可以说是以往任何数字编码都无法比拟的,甚至超过了许多字母编码技术字母编码的码长如果是四位的话,理论上可编汉字是45.7万之巨,它与数字编码是45.7∶1的关系,而且字母编码一般是每屏待选字10个第二,学习掌握极易虽然重码极低,使用的汉字部件却极少,仅20余个(五笔是200余个),使得学习和操作容易得出奇由于一个数字仅表示两种笔形,完全可以做到将两种笔形标识在数字键盘之上,初学者在读懂非常简单的编码规则后,即可看着键盘进行编码输入,不需记忆;如果把4句28个字的口诀记住了,则可不看键盘进行编码输入(是最容易进行“盲打”操作的输入法),极大提高操作速度第三,容量极大虽然仅用10个数字进行编码,但容量却非常大,而且字词不会重码字码长1-4码,词码长5码,字词不重,既极大地降低了重码率,又极大地增大了编码的容量(字约7千,词超3万),而且提高了编码操作速度第四,误编码极少。

虽然编码规则简单,但误编码的可能性极小本发明为汉字笔形进行了非常科学的归类,比如,将撇和向左下斜的点作为一类,将捺和向右下斜的点作为一类,将所有拐一个弯的笔画都作为钩处理等另外,出于更完善的考虑,还作出了一些特殊规定,对极个别极易搞错笔顺的字用两套编码对应同一个字(词遇此情况也是同一个词对应两套编码)第五,完善程度极高本发明对标点、英文字母、常用符号的数字编码并实行兼容操作,使本输入法达到十分完善的地步本发明用同一规则对中文标点、英文字母和常用符号进行数字编码,让用户不用转换功能键、启用特设键即可实现标点、字母、符号的输入本发明在每个数字键盘上各自设定对应的汉字笔形,用一个阿拉伯数字基本上代表两种汉字笔形,具体情况如下数字键“1”对应设定的笔形为“—”和“艹”,即横和草头,如“廿”字可拆分出笔形“艹”和“—”,其编码是11;另外笔形提 可看作和笔形横“—”相同;数字键“2”对应设定的笔形为“ニ”和“丨”,即两横和竖,如“王”字可拆分出笔形“ニ”和“丨”,其编码是221;另外笔形一横一提“ ”可看作和笔形两横“ニ”相同,“北”字可拆分出笔形 和“丨”,其编码是2263;数字键“3”对应设定的笔形为“氵”和拐两个以上弯的单笔画,拐两个以上弯的单笔画包括“乙、乚、 ㄋ、 ”等,如“泔”字可拆分出笔形“氵”,其编码是312、“也”字可拆分出笔形“ 乚”,其编码是323;数字键“4”对应设定的笔形为“钅”和其中至少一笔为斜状的两单笔相交的笔形(其中至少一笔为斜状的两单笔相交笔形包括“ㄨ、ナ、カ、ヌ”等),如“针”字可拆分出笔形“钅”,其编码是412,“戏”字可拆分出笔形“ヌ”等,其编码是4467;数字键“5”对应设定的笔形为“木”和一边开口的框,一边开口的框包括“匚、凵、冂、コ”等,如“枢”字可拆分出笔形“木、匚”,其编码是554,“岷”字可拆分出笔形“凵、コ”其编码是2554;数字键“6”对应设定的笔形为撇“丿”和向左下方斜的点 如“升”字可拆分出笔形“丿”,其编码是642、“冗”字可拆分出笔形 和“丿”,其编码是6963;数字键“7”上对应设定的笔形为捺“ ”和向右下方斜的点“丶”,如“杖”字可拆分出笔形“”,其编码是547,“飞”字可拆分出笔形“丶”,其编码是367;数字键“8”对应设定的笔形为“ハ”和“亻”,笔形“丷、人”可看作与如笔形“ハ”相同,如“伞”字可拆分出笔形“人、丷”,其编码是8812,“俩”字可拆分出笔形“亻”和“人”,其编码是8158;数字键“9”对应设定的笔形为“扌”和只拐一个弯的折钩(只拐一个弯的折钩包括“、∠、く、亅、乛”等),如“掐”字可拆分出笔形“扌”和“乛”,其编码是9695,“可”字可拆分出笔形“亅”,其编码是109;数字键“0”对应设定的笔形为“口”和“广”,如“咽”字可拆分出笔形“口、囗”,其编码是0047,“病”字可拆分出笔形“广”,其编码是0718。

为方便记忆,将以上的笔形设定可形象地编为如下字码口诀“一草二竖三水淌,四金斜交五木框,六撇七捺八人旁,九手一钩零口广通过上述每个数字键盘上的汉字笔形设定,依据设定的各种笔形对汉字进行拆分,并按照如下的规则对每个汉字取码(1)按汉字的书写顺序拆分出上述设定的笔形,依次取该字中拆分出的第一、第二、第三和最后的笔形所对应的数字键为代码,作为该汉字的编码;拆分不足四个笔形的字,不足四个笔形的不须补足四码,其编码与实际拆分所得的笔形相对应如“乘”字可依次拆分出笔形“丿、—、丨……ハ”,编码为6128,“庇”字可依次拆分出笔形“广、—、……乚”,编码为0193,“为”字可依次拆分出笔形“丶、カ、丶”,编码是7472)合体字第一部位限取两个笔形,第三个笔形必须转入下一个部位获取,第四笔形还是与该字的最后一笔相关的笔形;合体字一般为上下、上中下、左右、左中右、外内、半包围等结构的字体,当第一部位可拆分出超过两个笔形时,取第三笔形时必须转入下一部位如“转”字的第一部位可拆分出“、丨、—”,此时第三笔形不取“—”,而是转入下一部位取“ニ”,其编码是4227而不是4217,“动”字的第一部位可拆分出“ニ、 ㄥ、丶”,此时第三笔形不取“丶”,而是转入下一部位取“カ”,其编码是294而不是2974。

3)当同时可取两种以上笔形时,首先以“多笔画笔形优先”原则,如在取“二”、“木”笔形时不取“—”的代码1,而取“二”的代码2或“木”的代码5在此前提下遇多笔形交织在一起时,再以“笔顺优先”为原则选取笔形如“奉”字第一部位的笔画顺序是横横横撇捺,则第一笔形取“二”而不能取“ナ”,第二笔形才取“ナ”,加上第二部位取“二”和“丨”,编码为2422而不是4222;“未”的编码是228,而不是51或15等;“女”的编码是41不是46成”的第一笔“横”与“斜钩”相交且不存在同时取两种以上笔形的问题,故第一笔形取4,编码为4637而不是1637;“身”的编码是6242而不是62344)“匚、凵、冂、コ”等一边开口的框和“口”这些笔形不受笔顺影响,应当整取,但其中所含笔形不与其他笔形连取如“枢”的编码是554而不是5149,“但”的编码是8011而不是8521或802,“果”的编码是015而不是525或0228,“因”的编码是047将以上内容概括为如下编码口诀“前三后一字码取,首部两笔要转移;优先多笔和笔序,框口整取莫分离另外,按照上述笔形代码和编码规则即可对所有汉字进行编码,并且不会产生误编码但问题在于一些人对部分汉字的规范书写顺序不是十分清楚,容易习惯性误写,影响编码的正确性。

为最大程度地减轻实际可能存在的误编码,对“火”字和竖心旁“忄”的代码,特别规定为88和82;对“乃”、“及”等最难分清笔序的字,本发明用两套编码对应同一个字,使用户误编也一样打出字词如“奶”的正确编码是4136,但编为4163也可;“笈”的正确编码是6164,但编为6138也可本发明对词语的取码作了相应的规定,将词语编码的长度一律定为5位数,理论上可容纳10万个词语;如允许每个码重复3次,则可编30万个词语实际上常用词语3万左右,本发明按照以下规则对这些词语进行编码,重码率更低这里所说的词语,既包括词和词组,也包括常用的习惯性用语词语编码分为四字以下(不含四字)和四字以上(含四字)两类a)四字以下词语,即二字词和三字词,依次取前两个字中各自的第一、第二笔形和后一个字的与最后一笔相关的笔形编码如,“地图”的编码是12067,“就是说”的编码是71013b)四字及四字以上的词语取前四个字中的第一笔形和最后一个字中的与最后一笔相关的笔形进行编码如,“空前绝后”的编码是78960,“中国人民银行”的编码是00859c)按照上述词或词组的取码规则,当某部位已被前边部位取过而无法取码时,则该部位的代码重复前一代码,使词码的长度始终保持五位数。

如,“广大”的编码是00477,“一路上”的编码是11022,“表里如一”的编码是20411另外当词语末笔笔形不与上一笔笔形关联时,不必考虑字的编码比如,“妹”字的编码是4128,但“妹妹”的编码却是41415,而不是41418;“国”字的编码是0227,但“中华人民共和国”的编码为08850,而不是08857这样将更有利于提高编码速度以上主要内容编为如下词码口诀“前二字前二笔,后一字后一笔;四字首笔加末笔,五码有缺重复齐利用本发明数字键盘上设定的笔形和取码规则,还可对常用标点符号按形似进行数字编码,一看便知,极易记住这样,就不用专设标点符号键,使编辑输入速度更加快捷1.单笔标点的代码单笔(一笔可写出)且只占一个汉字位置的标点,用一个数字作代码具体说明。

下载提示
相似文档
正为您匹配相似的精品文档