计算机汉字键盘设计三原理

上传人:ldj****22 文档编号:36134455 上传时间:2018-03-25 格式:PDF 页数:32 大小:836.10KB
返回 下载 相关 举报
计算机汉字键盘设计三原理_第1页
第1页 / 共32页
计算机汉字键盘设计三原理_第2页
第2页 / 共32页
计算机汉字键盘设计三原理_第3页
第3页 / 共32页
计算机汉字键盘设计三原理_第4页
第4页 / 共32页
计算机汉字键盘设计三原理_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《计算机汉字键盘设计三原理》由会员分享,可在线阅读,更多相关《计算机汉字键盘设计三原理(32页珍藏版)》请在金锄头文库上搜索。

1、 1 计算机汉字键盘设计“三原理” 王 永 民 (中国王码集团 北京 100080) 摘 要 为突破汉字输入计算机的“瓶颈” ,30 年来国内外发表过数以千计汉字输入键盘的设计成果。 作者认为一个有生命力的汉字输入键盘, 应当是一个涉及多种学科的多目标统一。该文作者根据自己 20 多年来研究计算机汉字输入键盘的实践所建立的理论,阐明了作为“五笔字型”键盘设计理论支柱的“相容性、规律性、协调性三原理” ,提出了据此评价各类汉字输入键盘的量化方法。 关键词 汉字;输入法;信息化;形码;五笔字型 中图法分类号 TP303 The Three Principles of Computer Chines

2、e Character Keyboard Design WANG Yong-Min (Wangma Group of China , Beijing 100080) Abstract In order to break through“the neck of the bottle”in the process of inputting Chinese character into computer, in the past 30 years, thousands of design achievements of Chinese character inputting keyboard ful

3、l of vitality should be involved the unity of many kinds of subjects and goals. According to the theory and practice which the author established in the course of doing research on computer Chinese character inputting keyboard,this article illustrates“compatibility,regularity,coordination”three prin

4、ciples as the prop of WUBI keyboard design theory,and puts forward quantified method to evaluate varies of Chinese character inputting keyboard according to the three principles. 2 Keywords Chinese character;inputting method;informatization;font coding;WBZX 1 引言 汉字输入, 特别是形码输入, 并不是简单地把字根部件分成组摆在键盘上。实践

5、证明, 根据任何一个单一学科的知识, 是无法设计出科学实用的汉字输入键盘的。汉字输入键盘的设计是涉及到计算机科学、文字学、心理学和人机工程学等多种学科的边缘学科,是一个系统工程,属于多目标规划的范畴。 关于字根归并和键位设计的理论和方法, 构成了汉字输入键盘设计的理论基础形码键盘设计“三原理” 。这三项原理,不仅仅指导了五笔字型漫长的研究过程,而且作者相信,对于同行们从事的汉字输入键盘的设计,也可作为参考。 2 汉字输入键盘设计的相容性原理 计算机汉字输入键盘上字根布局的相容性将决定编码的唯一性。相容性(C)是指各个键位上多个编码元素共处一键时,其相互之间的相关性。不相关时的相容性好,反之不好

6、。相容性的量化指标,可以用重码的多少来表示。 将拼形组字的一字根一键的中键盘升级为字母小键盘的唯一方法, 是将几个字根归并到同一个键上。 然而, 有些字根适合归并而有些字根则不然, 所以,压缩键位,也即“归并”并不是一件容易的事。 同一个键上若干字根不需进行切换操作便可以各起各的作用, 使该汉字输入键盘产生的重码最少。即每个键上的字根要能很好地“相容” ,这样的方法称为相容性原理。 实现相容性的整个过程要用人机结合的办法, 经千百万次实验, 才能逐步逼近一个相对理想的组合。 影响某一键盘相容性的因素不但很多,而且互相制约。例如,键位越多,3 越容易相容; 如果允许有 300 个键位, 一个字根

7、一个键, 几乎就不存在 “相容”的问题。键位越少,相容越困难,而要实现相容,必得在同一个键上容纳安置许多个字根,必然会造成更多的重码而降低编码的唯一性。 实际上,相容性是键位多少(编码基数 K)以及字根组合情况的函数;在编码基数 K 已知的情况下, 相容性 C 只和字根的组合有关。 我们不妨以重码数的倒数作为相容性 C 的数学期望;在 K 已知时,理论上 C 有一个最小值,也有一个最大值; 而 C 的最大值所对应的 “字根键位” 映射, 本应该就是一个 “最佳”的字根布局,也就是一个重码最少的字根分布。 然而,问题并不这么简单。因为,一味地追求重码少,特别是 C 值最大的那种布局,一定是一个字

8、根分布毫无规律、不便记忆、不便学习的布局,更有可能是一个键位负荷很不合理、打起来费劲、效率低、手指头别扭的布局! 所以,一个科学的键位布局,不仅仅要追求重码少,C 值大的相容性,还必须是在符合 C 值大的若干种(或千百种)最佳、较佳字根布局组合中,优先筛选出字根排列, 不但有某种便于学习记忆的规律, 而且又保证键位负荷大小与手指能力相匹配的那种布局,才有可能形成真正实用的字根键盘。 3 相容性原理数学描述 定义 1. 相容性是指同一个键位上若干个字根的相关性,我们可以用“由于若干字根共处在同一个键位”才引发的重码数定量地评价。 例如:字根“木”和“氵”的相容性就很差,因为若将“木”和“氵”放在

9、同一键上,那么,不管别的字根在其余的键上如何组合摆放,总有“杠江、相泪、权汉、椎淮、林沐、柯河”这些字成为重码字;相反的情况如:若把“王”与“五”摆在一个键上(即让“王”和“五”用同一个代码) ,就不会出现重码字。 3.1 静态重码率 4 静态重码率是指重码的字数在字集总字数中所占的比例。在总字数为 N时,一个汉字输入键盘的重码总字数的计算公式是: 其中,N 为重码的总字数;i为重码字的级别,如i3,为 3 重码,i10,为 10 重码等;im为级别为i的重码的组数(如 3 重码有 5 组时,3m5) 。 其静态重码率: 对于一个已知的编码序列,可用以下程序生成编码体系的静态重码率: 假设含有

10、 n 个汉字的序列 HZ 为:HZ1,HZ2,.,HZn, 其相应的编码的序列 BM 为:BM1,BM2,.,BMn 另外有一个用于存放“不重的编码”的序列 UM,目前为空。 从编码序列 BM 中,依次取出其中的一个编码 BMi,如果该编码 BMi在UM 序列中尚未存在,就将 BMi添加到 UM 中,直至取完所有的编码,即可得到一个新的、没有重码的序列 UM: UM1,UM2,.,UMk 。 此时,UM 序列的长度 k,即为汉字序列 HZ 中不重码的汉字的个数,n k就是该汉字序列中重码汉字的个数,该汉字编码序列的静态重码率则为: 静= (n k) / n 100% 静态重码率的运算流程如图

11、1 所示。 静态重码率在二维坐标系中, 把 y 轴作为相容性 C, x 轴代表字集的字数,每 1000 个字一个单位,可以画出“静态相容性”与字集字数的关系曲线,如图 2 如示。 ii)i (mN21重N)i (mNNii 21 重 静5 是 从图 2 可知,随着字数的增加,相容性直线下跌!当字数从 10000 增加一倍时,相容性 C 的值从 95减少到 84。这就是说,当字集是 10000 字时,重码的字数是 1955,即 10005500 字,而当字数增加到 20000字时,重码的字数是 18515,即有 20000153000 个字重码;这就是说字数从 10000 到 20000,只增加

12、一倍,而重码字数却增加到 3000500返回 是 否 已到最后一个编码? 图 1 静态重码率的运算流程 BMi在 UM 中已存在? 计数器 i = 0 将 BMi添加到 UM 中 计数器 i 加 1 否 开始 取出第 i 个编码 BMi 6 6 倍! 图 2 不同字集的相容性曲线(静态) 由此看来,当汉字的字集扩大时,会对重码的字数产生严重影响!试想,20000 字中有 3000 个字重码,这个键盘设计的实用价值是不是有问题呢? 进一步的研究将会发现, 尽管静态相容性随字集扩大而大幅度下降, 可是对于一个设计合理的编码体系来说,其动态相容性常常少受影响! 3.2 动态重码率及其在中文键盘设计中

13、的指导价值 在中文键盘设计中, 因为要考虑各个键位的手指负荷, 动态重码率往往比静态重码率更为重要。 动态重码率是指每一组重码的字中,除频度最高的一个外(这个字被视为“优先享受”了不其它字重码的那个编码! ) ,其余全部重码汉字的实用频度的总和: 式中,n为每组重码字中,除第一个以外的汉字总数; iHP为第i个汉字的实用频度。 iHPni 1动7 显然,编码体系的相容性 C 与动应成正比, 动1;动越大,重码字的实用频度越高,反之越低。 为了描述和绘图直观而方便,我们可以把动态重码率的“倒数”定义为相容性 C 的值,C 的最大值为 100,最小值为 0。 当然,还可以将“不重码汉字的实用频度”

14、的总和直接作为动态相容性 C的值,这时的 C 也叫“动态相容性” ,其最大值为 100,最小值为 0。 为了方便, 以下如不特别声明, 我们说到相容性时一律是指动态相容性 C。 在二维坐标系中, 我们可以定义纵轴为相容性 C, 横轴为汉字的字集大小,1000 代表按实用频度排列的前 1000 个字,2000 代表前 2000 个字,10000 代表前 10000 个字;这样,我们可以画出相容性与字数的相关曲线。经验告诉我们,这是一条与电容器放电曲线类似的降指数曲线。 图 3 动态相容性曲线(不重码字实用频率) 从这条曲线可知,5000 字之后,相容性就趋于平衡,由此可得出一个非常重要的结论:

15、在形码设计中,在字集达到 5000 字之后,无论字数怎样增加,对相容性8 都很少影响;即使把字集扩大到 2 万字、3 万字、7 万字,编码体系的相容性都几乎不变! 而这一点, 正是形码可以处理很大的字集, 却不太影响整个中文键盘的实用性技术指标的理论根据。 这一理论证明,在中文键盘设计中的指导意义在于: (1)要优先按字根的实用频度,而不是按字根的组字频度优选字根; (2)只要动态相容性有较满意的值,可以不去计较实际上的重码字数; (3) 当一组重码字被输入且显示时, 应该将频度最高的字显示在第一位,且默认是所要输入的字。 (4)在字集达到 10000 字之后,扩大字集对于相容性的影响,几乎可

16、以忽略不计!因而可以用同一个键盘字根布局、同一规则,处理扩大的字集,比如 3 万、5 万甚至 10 万字的字集。 以上各项,在五笔字型的设计过程中均加以采用。 在三维坐标系中,我们用y轴代表相容性 C 的值,其取值范围将依键盘设计的动态重码情况在 0 到 100 之间。 图 4 取值示意图 当 C0 时,说明该键盘设计中汉字的编码全部相同,即所有的字显示在9 一个提示行中等待挑选! 这一情况相当于在使用五笔字型软件时, 一个编码也不知道,输入 4 个“未知码”ZZZZ 的情况; 当 C100 时,说明该汉字输入键盘全部的字没有一个重码的情况,相容性达到了最高值!一字一键的“整字大键盘”和一字一码的“电报码” ,就是这种情况。 然而,C 值的两个极值都是不可取的。对于其它各类汉字输入编码方案,包括各种形码、音码、音形码、形音码,其编码方案相容性 C 的值,应 0100之间。 通常情况下, 相容性还必须兼顾规律性和协调性, 才能成为一个实用的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号