《第四章汉字输入编码》由会员分享,可在线阅读,更多相关《第四章汉字输入编码(38页珍藏版)》请在金锄头文库上搜索。
1、苏州大学计算机科学与技术学院第四章 汉字编码技术汉字编码的概念o从广义角度看字典/词典编码方法,用于在字典和词典中的快速定位 ,常见的方法:部首、笔画、拼音和四角号码等o从狭义角度看汉字键盘编码,用计算机键盘上的按键为汉字编码汉字编码的发展o20世纪70年代起步阶段,拼音编码、五笔字形、自然码等,效率较低o20世纪80年代中期轰轰烈烈的“大跃进”式编码活动,但没有什么发展o20世纪90年代萧条期o进入21世纪后将是又一个发展期,数字编码方案将占主导汉字编码中的几个概念(1)o字符集/字汇和词汇n字符集/字汇 多/少n词汇 多/少特指某个编码方案编码词组的集合 o码元n组成输入码的字符集合称为码
2、元。 如拼音码的码元是“a”“z”中的任意一个字母;纵横码的码元是“0”“9”中的任意一个数字 。汉字编码中的几个概念(2)o码长n输入码的长度称为码长。如输入码“123”的码长为3 n等长编码,如区位码等n不等长编码,如拼音码、纵横码等o单码和重码n一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码如对应的汉字和词组只有一个时,称这个汉字和词组为单码。汉字编码中的几个概念(3)o编码空间和编码效率编码空间和编码效率n所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,如区
3、位码的编码空间大小为:C=104,即10000个。n编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。如区位码,它的字汇大小为6763,则编码效率为6773/1000067.73。 汉字的墒(1)信息量的概念n熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。n最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能性数目N的“以2为底的对数”:H=2NN/2。 n信息量应按符号的可能性(数学上叫概率大小)来计算,它是概率的负对数。平均信息量就是它们的加权平均 H=pipi(1in
4、)n文字信号的信息量H是信号个数n的以2为底的对数: H=n/ 2。英文有 26个字母,每个字母的信息量H=26/ 24.700。 各种语言的字母的信息量 法文3.98比特 意大利文4.00比特 西班牙文4.01比特 英文4.03比特 德文4.10比特 罗马尼亚文4.12比特 俄文 4.35比特 中文 9.65比特汉字的墒(2)汉字墒的概率分布o假设给定一个汉字字符集HZ,其中汉字数为n,则该字符集的熵为 H=PiPi(1in)n 其中,Pi为单个汉字在汉语文本中出现的概率,(Pi)是第i个汉字出现时的信息量,(Pi)是所有汉字在不考虑前后相关性时所给出的全部信息量。H是该集合中的每个汉字的平
5、均信息量。汉字的墒(3)汉字墒的意义o平均信息量(信息熵)表示存储或表示该汉字字符集所需要的二进制位数(中文约为9.65bit)。根据每个汉字的平均熵,通过采用不等长编码可以提高汉字存储和传输效率。o信息量(信息熵)与字的使用频度成反比。即频度下降一半,其信息量增加1位。o对汉字编码而言,采用多于2个码元时,汉字的平均熵也会下降。如: 当m=2时, Lmin (3,4)当m=47时 Lmin (1.73,2.73)o不同领域,字的使用频度不同,因此,对大系统内的汉字信息熵的意义不大。 汉字键盘编码的依据心理依据o从心理学角度来看,根据汉字音信息的汉字编码,人在大脑中无需进行任何的思考,就可以输
6、入汉字,所以说是最为直接的输入方式。根据汉字形信息的汉字编码,用户在输入时,大脑需要把语言转换为字形,然后才能输入,所以说是一种间接的输入方式。o汉字心理学和模糊心理学的研究表明,人认字时上半部优于下半部,外围优于中间。 o从排列心理学角度来看,希望汉字的编码能尽量唯一,并能尽量表达汉字的本身特征。 汉字键盘编码的依据汉语拼音o汉语拼音的语言形式有三个要素:声母、韵母和声调。三者构成一个音节。其中声母有21个,韵母有35个。声调有五种:阴平、阳平、上声、去声和轻声。声韵结合起来有417个基本音节,如果考虑声调,总共有1330个左右的音节。o所有的计算机用汉字的发音都在这些音节范围内。这就是汉字
7、同音字/词多的根本所在。如在GBK中,拼音“yi”有个460多个对应的汉字。o同样也存在大量的同音词。这就造成重码多和输入不方便。这是以音作为编码要素存在的主要问题。 汉字键盘编码的依据汉字部件o汉字的字形分为三级:笔画、汉字部件(如偏旁部首)和整字。由笔画构成汉字部件,由汉字部件构成整字。 o绝大多数根据汉字字形的编码方案基本上是基于部件的编码,如“五笔”、“表形码”等。 o基于部件的汉字编码需要解决的问题是:汉字如何拆分? o用汉字部件编码的最大问题是部件的规范问题。汉字键盘编码的依据笔画/笔顺o笔画/笔顺编码是选取汉字的基本笔画(如五种或八种),把笔画定义到汉字的数字键和字母键上,然后依
8、笔顺或汉字的笔顺来给汉字编码。 o笔画输入近年来受到了特别的重视,主要是手机迅速普及所致。o笔画输入的优势在于简单,无需学习和记忆。笔画输入的困难在于单字输入重码多、词组输入效率低、句子输入则困难。 汉字编码的分类流水码o将汉字按照一定顺序排列后,给每个汉字以一个特定的顺序号,形成的汉字编码称为流水码,也称无理码或顺序码。一个现成的顺序就是汉字内码的排列顺序,区位码和内码就是其中的两个实例。 o流水码的好处在于编码与汉字一一对应,绝无重码。o缺点是编码无规律,记忆难度大,不易掌握。 汉字编码的分类音码o音码是以汉字的发音为基础的一种汉字编码,一般以汉语拼音方案为蓝本进行设计。如智能ABC、全拼
9、、双拼、微软拼音、紫光拼音等。o音码的最大好处是简单易学。 o音码的缺点:汉字同音字太多,检索同音字使汉字输入速度大大减慢。o目前音码仍然是使用最广泛的编码,几乎96%以上的用户采用音码。值得一提的是:音码本身也在扬长避短,作了许多有益的改进。 汉字编码的分类形码o形码是依汉字的字形来编码的,如五笔字型、笔形码、大众码等。 o形码有效地避免了按发音输入的缺陷,重码率也相对较低,为实现汉字的盲打提供了可能,成为专业人员的首选汉字输入码。 o形码的部件多,分布广,记忆起来较难,同时须经过较长时间的学习训练才能熟练掌握。 汉字编码的分类音形码/形音码 o音形码/形音码兼顾汉字的读音、字形两方面的特点
10、进行混合编码。o音形码在兼有音码和形码二者之长的同时,也兼有二者的一些弱点。 o音形码在输入时既考虑汉字的读音又考虑汉字的写法,人需要思考的时间也会增多,造成输入时的瓶颈。 海曼(Hyman)公式与汉字编码时间o海曼公式的一般形式为:Ta十bH(K)n其中,T为平均选择反应时间,K是选择信号的个数,H(K)为每一个信号的平均信息量,a和b是系数。 o汉字编码时间的公式:T=a十blog2K十Cna为大脑发出指令冲动到肌肉动作所需时间,即击键时间;blog2K理解为“选择时间与信息量成正比”的适用条件下,选择等概率键位所需时间的一种可采用的表达方式;C代表一个码元的平均“编码时间”,反应了思维时
11、间和检索时间的长短。键盘分区图 功能按键区功能按键区小键盘区小键盘区大键盘区大键盘区大键盘编码o如果一种编码的码元集合为“a”“z”这26个字母或它的子集,那么我们称这种码元的键盘映射方式为大键盘编码。如全拼和智能ABC等拼音编码、五笔、郑码等等。o各种拼音编码一般都是采用大键盘编码。 o形码也有采用大键盘的,如五笔就是一个典型的例子。 o一般采用大键盘的码长在34之间,平均码长一般不能超过4。 小键盘编码o采用键盘右边的数字区的“0”“9”这10个数字进行编码的方法称为小键盘编码。如区位、纵横、字原、五笔数码等均是小键盘编码。o采用小键盘编码的以形码居多,音码也有但不多。形码一般都采用笔画编
12、码。 o音码在计算机小键盘上应用很少,主要是用在数码产品上,如手机、电话、遥控器等。实现时一般把26个英文字母映射到10个数字按键上。 纵横码的键位图纵横码的键位图字母数字映射图字母数字映射图 大大键盘编码o大大键盘编码是指编码的码元不仅是大键盘上的26个字母,还包括10个数字和部分的其它符号。这种编码方案早期很多,如字元编码、钱码、陆码、绿色拼形等。o早期出现这样的编码方法主要是可以增加编码空间,从而降低重码率,实现快速输入。 o这种编码方案已经很少了,主要是因为这种方案具有不易学和难记等缺陷。 绿色拼形编码的键位分布图 小小键盘编码o小小键盘编码是指只用5个数字来编码,也就是码元数只有5个
13、。o小小键盘编码方案主要是应用在手机等数码设备上,几乎所有的手机笔形编码均是采用小小键盘编码。 Nokia 笔画输入法小小键盘图 数码键盘方案o所谓的汉字数码是指用“0”到“9”十个数字对汉字的单字和词组进行编码,使得只用小键盘就可以完成汉字的输入,并可移植到手机以及各类PDA产品上使用。 纵横码o在纵横汉字编码方案中,把笔形分为10类,分别用“0”到“9”这10个数字表示。笔形与数字代码的关系可通过下列口诀记忆:“一横二竖三点捺,叉四插五方块六。七角八八九是小,撇与左钩都是零。”o取码规则是将汉字看成一个方块字,取汉字四个角的笔形为有关编码。类似四角号码取码规则。 o部分汉字的取码实例:人(
14、8) 中(5) 十(4)重(01) 要(14) 喜(46) 事(50)五笔数码五笔数码 o五笔数码按照笔画进行编码。笔画分为“横”、“竖”、“撇”、“捺”、“折”五种,分别用“1”、“2”、“3”、“4”、“5”作为代码。下表为基本笔画代码表:代号代号基本笔画基本笔画名称名称笔画走向笔画走向笔画变形笔画变形1一一横横左左右右2丨丨竖竖上上下下亅亅3丿丿撇撇右上右上左下左下4捺捺左上左上右下右下5乙乙折折带转折带转折乛乚乛乚 6键6码键盘图 9键9码键盘图 统一码o该方案取5种基本笔画:“横(一)”(含“提”)、“竖(丨)”(含“竖勾”)、“撇(丿)”(包括“啄”)、“点(丶)”(含“捺”)和“
15、折(乙)”(包括左折和右折),并且将这五种笔画赋予顺序值“1”“5”。 o数字统一码将汉字结构归纳概括为四种基本结构。它们是:上下结构,左右结构,包围结构,嵌套结构。同时规定一个汉字可以取一至六码。 o字445576各359251右689 左右数码左右数码o利用数字来表示汉字的笔划、拼音和部件,其特征是将左右(含左中右)结构的汉字定义为“左右字”,再按书写顺序把“左右字”分为“左部”与“右部” 。如下表所示: o把“左右字”以外的汉字都定义为“整体字”。根据规则进行数字编码。汉字编码国家标准国家标准说明GB13000.1信息技术多八位编码字符(UCS)GB18030信息技术信息交换用汉字编码字
16、符集基本集的扩充GB/T18031信息技术数字键盘汉字输入通用要求GB15834标点符号用法GB/T19246信息技术通用键盘汉字输入通用要求, 国家语委的规范 规范说明GF3001信息处理GB13000.1字符汉字部件规范GF3002GB13000.1字符集汉字笔顺规范GF3003信息处理用汉语拼音方案表示规范通用键盘 与汉字编码有关的标准与规范说明o在编码字符集方面 o在键位设置方面 o在标点符号方面 o在部件规范方面 o在笔顺规范方面 汉字键盘编码和输入系统的性能指标o易学性n“学会使用汉字编码输入系统的时间应尽量短,并应符合使用汉语作为母语的使用者的思维习惯”。GB/T 18031对数
17、字编码更进一步提出要求:“做到上手能用”。 o汉字输入平均码长o重码字词键选率GB/T19246通用键盘汉字输入通用要求给出的指标GB/T18031(数字键盘)给出的指标编码类型编码类型平均码长(键平均码长(键/字)字)汉语拼音,笔画为主的简易编码3.2形码(部件码)、音形码(形音码)、双拼2.2编码类型编码类型平均码长(键平均码长(键/字)字)逐字字段输入字6词混合输入4GB/T19246通用键盘汉字输入通用要求给出的指标GB/T18031(数字键盘)给出的指标编码类型编码类型重码字、词键选率(重码字、词键选率(%)汉语拼音,笔画为主的简易编码6形码(部件码)、音形码(形音码)、双拼1.5输入方式输入方式平均码长(键平均码长(键/字)字)逐字字段笔画、部件码输入8字、词混合笔画、部件码输入10逐字字段拼音输入(10键位)13逐字字段拼音输入(8键位)14字词混合拼音输入(10键位)12字词混合拼音输入(8键位)14