数字键汉字编码技术的研究和应用

上传人:ldj****22 文档编号:45264179 上传时间:2018-06-15 格式:PDF 页数:10 大小:1.31MB
返回 下载 相关 举报
数字键汉字编码技术的研究和应用_第1页
第1页 / 共10页
数字键汉字编码技术的研究和应用_第2页
第2页 / 共10页
数字键汉字编码技术的研究和应用_第3页
第3页 / 共10页
数字键汉字编码技术的研究和应用_第4页
第4页 / 共10页
数字键汉字编码技术的研究和应用_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《数字键汉字编码技术的研究和应用》由会员分享,可在线阅读,更多相关《数字键汉字编码技术的研究和应用(10页珍藏版)》请在金锄头文库上搜索。

1、第 卷 第期 年月计 算 机 学 报 收稿日期: 王永民, 年生, 教授级高级工程师, 年来从事字母键汉字输入技术与数字键汉字输入的理论研究和应用工作 : 数字键汉字编码技术的研究和应用王永民( 中国王码集团 北京 )摘 要 按照国家标准( ) 的 通用要求 , 对数字键汉字输入的键位设计和编码设计进行了理论探讨, 并以数字王码为例, 提出了键位、 码元和取码规则的匹配策略, 介绍了基础、 初级、 中级和高级等套方案实例, 以期作为我国数字键汉字输入技术研究应用及其实现标准化的参考关键词 汉字编码; 数字王码; 王码; 汉字输入; 国家标准中图法分类号 犚 犲 狊 犲 犪 狉 犮 犺犪 狀 犱

2、犃 狆 狆 犾 犻 犮 犪 狋 犻 狅 狀 犻 狀犆 犺 犻 狀 犲 狊 犲 犐 狀 狆 狌 狋犜 犲 犮 犺 狀 狅 犾 狅 犵 狔犳 狅 狉犖 狌 犿 犲 狉 犻 犮 犪 犾犓 犲 狔 犫 狅 犪 狉 犱 (犆 犺 犻 狀 犪犠 犪 狀 犵 犕 犪犌 狉 狅 狌 狆,犅 犲 犻 犼 犻 狀 犵 )犃 犫 狊 狋 狉 犪 犮 狋 ( ) , , , , : , , , 犓 犲 狔 狑 狅 狉 犱 狊 ; ; ; ; 引 言自 世纪 年代开始, 数字产品在我国大量出现汉字的“ 数字化输入” , 已成为举世公认的难题当前, 国内的数字产品大都采用不符合我国汉字规范、 技术落后的“ 进口” 汉字输

3、入法, 不但使汉字文化受到污染, 每年我国还要向“ 外商” 交付巨额的“ 专利费”尽管国内的汉字输入方案有上千种, 但未形成一种公众趋势和标准, 因此, 亟待我国的科学工作者从国家标准出发, 尽快实现符合我国语言文字规范, 科技体系完备、 普及型的输入法 国家标准及技术参数 数字键汉字输入技术的国家标准 国家质量技术监督局于 年月 日发布了一项信息技术领域代号为 的国家标准, 名称为 数字键盘汉字输入通用要求 ( 以下简称 通用要求 ) , 现摘引其中涉及“ 形码” 的内容如下: 、 使用键位在数字键范围内; 、 编码规范:数字编码涉及的汉字笔画、 笔顺应遵从 现代汉语通用字笔顺规范 、 基本

4、笔画:汉字的基本笔画分为种, 其键位( 数字代码) 如下表:数字键 笔画名称横竖撇捺折基本笔画( 注: 通用要求 规定: 提笔归于横; 竖左钩归于竖,归于捺) 、 易学性学会使用汉字数字编码输入的时间应尽量短 、 汉字输入平均码长( 击键次数)单字输入平均码长应小于;字词混合输入平均码长小于; 、 单字笔画码输入重码率小于;字词混合输入重码率小于 汉字的基本笔画 根据许慎在 说文解字 中“ 独体为文, 合体为字” 的观点, 汉字可分为独体字与合体字两大类别统计表明, 在 个常用汉字中, 独体字只占左右, 而由独体字“ 组合” 而成的“ 合体字” , 则多达 这里, 我们把作为“ 零部件” 组字

5、时“ 组字频度” 高的独体字, 如口、 人、 日、 ?、 氵、 纟等, 叫做“ 字根”或“ 部件”汉字由字根组成字根则是由“ 笔画” 组成作者对于“ 笔画” 的定义如下:书写汉字时, 一次写成的连续不断的笔迹由此可导出个与 通用要求 完全吻合的推论:() 凡是一笔写成的, 无论什么方向, 无论如何 弯折, 都是“ 一个笔画”如“ 马” 的前两笔, “ 飞” 的第一笔, “ 凸” 的右上角一笔, 都不能切断成几个笔画;() 凡是抬了笔, 经两次或两次以上写成的一 个笔画结构, 如十、 八、 勹、 口等, 都不是“ 笔画” ( 可称为部件或字根) ;() 笔画的类别, 只和运笔方向和书写次数有 关

6、, 而与其长短大小无关如丶和只能是一种笔画( ) , 和 也是同一种笔画( )就类别和数量而论, 汉字结构中的笔画、 字根、整字和词汇, 作者认为可以和物质的构成类比如表所示表 汉字结构与物质构成的类比汉字构成数量特征物质构成第一层基本笔画几种基本粒子第二层字根上百种原子第三层汉字成千上万种分子第四层词语无数种物质一般来说, 在标准键盘的 个字母键上设计汉字输入技术, 只有以“ 字根” 为单位才切实可行比如五笔字型, 采用了 种字根, 分布在 个键位上,平均一个键位有种, 只要分组布局合理, 取码规则得当, 设计出一个兼顾相容性( 重码少) 、 规律性( 易学习) 、 协调性( 指法顺手) 的

7、“ 拼形组字键盘” , 是完全可能的然而, 对于共 个数字键来说, 要把 种精减到已近极限的字根, 安排在数字键位上“ 拼形组字” , 每个键上平均要安置 个字根, 不要说记忆难度很大, 就算是能够科学分组, 编码输入时引起的重码, 也必将是多得惊人!为此, 正如字母键盘上设计输入技术必须力避“ 汉字之多” 、 抓住“ 字根之少” 一样, 在数字键上设计汉字输入技术, 则必须力避“ 字根之多” 而抓住“ 笔画之少”这也就是在数字键上设计汉字输入技术, 必须以汉字的“ 细节” 信息 笔画作为“ 编码元素” ( 码元) 的原因作者对国标 字集的 个汉字的种笔画作过统计, 如表所示表 汉字笔画统计笔

8、画种类出现次数约占比例横 竖 撇 捺 折 信息处理的一个重要技术指标是编码效率即便是有了笔画分类, 却规定把汉字拆分成一个个单笔画, 全部按笔顺输入也是不可取的正如“ ” 输入法, 虽然其种笔画的分类也符合 通用要求 , 可是该输入法等于在数字键上“ 写字” , “ 码长” 不定( 等同于笔画数) , 显然不可能有高效率可见, 要解决汉字的数字键输入, 必须首先解决个问题: () 汉字的基本笔画有几种( 码元) ; () 编码输入汉字, 用几个数字键( 键位) ; () 一个汉字要打几下键( 码长) 这个基础性的问题, 在国家标准 中都已经做了明确规定国家标准的 通用要 求 , 是我国数字键汉

9、字输入的“ 一定之规” , 对此设计者不能“ 不予理会” 而闭门造车否则即使有些“ 新颖性” , 也不可能具备实用性期王永民:数字键汉字编码技术的研究和应用 数字键汉字编码的技术参数 编码的技术参数, 可以用来定量地评定方案是否符合 通用要求其中最重要的几个参数如下码元犕 指被设置在数字键上, 用来参加编码的汉字元素 笔画、 字根或部件, 以一个键位上设置个为宜键位数犓 指设置码元的键位数编码长度犔( 码长) 指为单字和词语编码时的编码位数( 用整数表示) , 也即输入一个汉字时所需的最多按键次数, 其最大码长用犔 表示;汉字字集犎 指有待编码的汉字集合的汉字总数( 国标一级字 个, 一、 二

10、级字 个, 字 集 个, 国标 字集 个等)编码空间 指某一编码方案的最大编码容量编码容量与待处理的汉字数相比, 必须有较大的冗余度, 否则其重码的概率就会很高为此, 我们事先限定:犎; 例如:犓时,犔和犔的编码空间分别是犻犻 ;犻犻 再如犓, 也即用个数字键输入, 码长犔 时, 编码空间便大得多:犻犻 这个编码空间, 比字母键上五笔字型的编码空间犻 犻 还要大这就是说, 对于同一字集, 在数字键上要想达到“ 五笔字型” 那样少的重码, 就应当按犓,犔设计方案重码率与重码字数 重码率是输入编码唯一性的定量指标, 重码率高, 输入时必然增加翻屏选字的次数( 键选率上升)重码字数: 是在汉字集合犎中建立编码体系之后, 编码完全相同的汉字总数犎重, 可用作者推导出的以下公式计算出来:犎重犎 公式说明: 汉字编码在编码空间中是随机分布的字集在中的平均密度为犎,是任将一个编码“ 投掷” 到中, 与中已知的犎个编码发生“ 碰撞” 的事件概率, 即“ 重码率” ; 另外, 若已知在字集犎中的重码字数为犎重, 则实际的重码率为犎重 犎;理论上应当有但由于是实测数据, 不

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号