汉字输入技术与方法

上传人:宝路 文档编号:2140558 上传时间:2017-07-20 格式:DOC 页数:13 大小:181KB
返回 下载 相关 举报
汉字输入技术与方法_第1页
第1页 / 共13页
汉字输入技术与方法_第2页
第2页 / 共13页
汉字输入技术与方法_第3页
第3页 / 共13页
汉字输入技术与方法_第4页
第4页 / 共13页
汉字输入技术与方法_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《汉字输入技术与方法》由会员分享,可在线阅读,更多相关《汉字输入技术与方法(13页珍藏版)》请在金锄头文库上搜索。

1、第三章 汉字输入方法? 文字录入是中文信息处理的第一步,它可以借助三种手段来实现,即键盘输入、汉字字形识别和汉字语音识别。? 在这三种方式中,汉字的键盘输入是主流的输入方式,而汉字字形识别输入和语音识别输入是汉字输入发展的一个趋势,将来的输入技术将是一个多元化的格局。第三章 汉字输入方法第一节 汉字键盘输入? 汉字的键盘输入可分为两种基本的形式:? 一是通过专用的大键盘来进行整字的输入,其效率低下,成本高,已经基本不用。 ? 二是通过标准的 PC 键盘(小键盘)来进行输入,显然,要完成输入过程,就必须对汉字进行编码,因此小键盘的输入是一种编码输入。其效率高、成本低,已经成为主流的输入方式。 第

2、一节 汉字键盘输入? 如前所述,依据编码的思路不同,可将编码分为流水码、拼音码、拼形码、音形结合码四类。? 每一种编码都有其特点,在键盘输入方面,目前的格局是职业打字员使用形码(如五笔字型) ,非职业打字员使用音码(如全拼) ,音码向智能化方向发展,相对形码而言优势越加明显。当前音码的主要不足是不能实现盲打。将音字转换从语句级拓展到篇章级可以解决盲打问题。因而可以肯定音码输入加智能转换,将成为未来键盘输入的主流。现在主要的问题在于如何提高转换精确度。 第一节 汉字键盘输入? 汉字键盘输入系统是由编码层次和软件层次两部分构成,这两个层次互相补充,互为依托,构成完整的输入系统。从“高频先见” 、

3、“联想”到“自动识别重码字、词” ,软件智能化的程度在不断提高。? 赋予计算机一定的有关汉字、汉语的语法、语用知识,计算机可根据这些知识来取代原来需要人脑记忆的某些编码规则,辨别同音字和人工选定重码字、词或联想字、词。 第一节 汉字键盘输入? 一、流水码的代表:内码输入法? 内码输入法是 Windows 内置的一种输入法,它支持区位码、GBK 内码、UNICODE 码三种方式的输入。 第一节 汉字键盘输入? 区位码的前二位是区码,后二位是位码。区的编码是从 01-94,位的编码也是从 01-94。在区位码输入方式下,键入相应的区码和位码就可以输入一个汉字。汉字是从 16 区到 87 区,01

4、至 15 区是图形符号和字母。 区位码输入支持信息交换用汉字编码字符集 - 基本集即 GB2312-80 的内码输入方式。内码编码的范围为:0xA1A10xFEFE。? GBK 内码输入覆盖了汉字扩展内码规范 - GBK 中规定的全部汉字。? UNICODE 码输入支持通用多八位编码字符集 (UCS) - 国际标准 ISO/IEC10646.1-1993 中规定的全部汉字。第一节 汉字键盘输入? 可以输入所有的汉字,包括所有的符号,和内码一一对应,只要内码支持多少汉字,它就可以输入多少字。如在 Office XP 的简体中文版中,可以达到对 6 万多汉字的输入支持。 ? 对于不认识字的字也可以

5、输入,可以通过 偏旁部首对照表 来进行? ? 安装 Office XP 简体中文版,Microsoft 在中文简体版 Office XP 及相应多语言包中,专门开发了超大字符集中文字体(宋体-方正超大字符集)及增强型区位码。 ? 宋体-方正超大字符集字体包括了 27,564 个汉字以及在第二平面中(42,711)选出的36,862 个在中国大陆,香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括 65,531 个字符。? 宋体-方正超大字符集中包括了 6 万 4 千多汉字,但是由于其中相当多的汉字读音很难确定,使得按拼音输入的方法难以实现。为此

6、,微软公司专门扩展了原区位/内码/Unicode 输入法,开发了增强型区位码。对于 GBK 中的汉字(即在 Unicode 中 U+4E00U+9FFF) ,用户可以继续按原来的方式输入(通过输入区位码,GBK 内码或 Unicode 码) 。但是对于扩展 A的汉字只能通过输入 Unicode 码,对于扩展 B 只能通过输入一种 4 字节的 Surrogate 码。总之,通过增强型区位码用户不仅可以输入 GBK 的汉字,而且可以顺利输入扩展 A 及扩展 B 的汉字。? 用户只需就要查找汉字在康熙字典 (或汉语大字典 )中相应的页码(康熙字典的 xxxx.xxx 或汉语大字典的 xxxxx.xx

7、x) ,并在搜索中将该页码字符串作为关键字进行搜索,找到相应的 Unicode 或 Surrogate,然后激活增强区位输入法即可进行输入。 ? 康熙字典页码格式为:xxxx.xxx 汉语大字典页码的格式为:xxxxx.xxx。这里特别要注明的是这里数据来源于 1958 年 1 月第一版的康熙字典 。? 这里小数点前为该汉字在字典中的页码,小数点后两位为该汉字在该页中的位置。如果最后一位为“0” 表示该汉字确实在该页内。如果后一位为“1” , 则表示该汉字并不在该页中,此时数点后两位则代表按笔画数该汉字应该排在该页的第几个。第一节 汉字键盘输入二、拼音类的输入法? 拼音类的输入法的使用用户众多

8、,其突出的优点是易学,从 Windows 内置的全拼、到智能 ABC 、微软拼音、再到紫光拼音等,有一系列的优秀输入法。 ? 1. 全拼输入法 ? 特点: ? 支持 GBK 大字符集 ? 输入效率较低的输入法2.智能 ABC 输入法? 智能 ABC 输入法(又称标准输入法)是中文 Windows95/98 中自带的一种汉字输入方法,由北京大学的朱守涛先生发明。它简单易学、快速灵活,受到用户的青睐。? A.内容丰富的词库 ? 智能 ABC 的词库以现代汉语词典为蓝本,同时增加了一些新的词汇,共收集了大约六万词条。其中单音节词和词素占 13;双音节占着很大的比重约有 66;三音节占11;四音节占

9、9;五九音节占 1。词库不仅具有一般的词汇,也收入了一些常见的方言词语和专门术语,例如人名有周恩来等中外名人三百多人;地名有国家名称及大都市、名胜古迹和中国的城市、地区一级的地名,约 2000 条。此外还有一些常用的口语和数词、序数词。熟悉词库的结构和内容,有助于恰当地断词和选择效率高的输入方式。B. 允许输入长词或短句 ? 智能 ABC 允许输入 40 个字符以内的字符串。这样,在输入过程中,能输入很长的词语甚至短句,还可以使用光标移动键进行插入、删除、取消等操作。 ? C.自动记忆功能? 智能 ABC 输入法能够自动记忆词库中没有的新词,这些词都是标准的拼音词,可以和基本词汇库中的词条一样

10、使用。智能 ABC 允许记忆的标准拼音词最大长度为九个字。 ? D.强制记忆? 强制记忆一般用来定义那些非标准的汉语拼音词语和特殊符号。利用该功能,只需输入词条内容和编码两部分,就可以直接把新词加到用户库中。允许定义的非标准词最大长度为十五字;输入码最大长度为九个字符;最大词条容量为四百条。 ? 用强制记忆功能定义的词条,输入时应当以“u”字母打头。? E.中文输入中输入英文 ? 在输入拼音的过程中(“ 标准” 或“ 双打” 方式下) ,如果需要输入英文,可以不必切换到英文方式,只需键入“v” 作为标志符,后面跟随要输入的英文。例如:在输入过程中希望输入英文“windows” ,键入“v wi

11、ndows” ,按空格键即可。 ? F. 以词定字输入功能 ? 无论是标准库中的词,还是用户自己定义的词,都可以用来定字。用以词定字法输入单字,可以减少重码。方法是用“” 取第一个字、 “” 取最后一个字。 G. 简拼与混拼相结合 ? 简拼的规则为取各个音节的第一个字母输入。对于包含 zh 、ch 、sh (知、吃、诗)的音节,也可以取前两个字母组成。混拼输入是两个音节以上的拼音码,有的音节全拼,有的音节简拼。? H. 双打输入 ? 智能 ABC 为专业录入人员提供了一种快速的双打输入。在双打方式下输入一个汉字,只需要击键两次:奇次为声母,偶次为韵母。下面列出了双打输入的声母和韵母的定义表,可

12、以看出其使用规则并不复杂,只要记住各个键的含义就行了。 ? 复合声母和零声母定义表 第一节 汉字键盘输入? 智能 ABC 提供阿拉伯数字和中文大小写数字的转换能力,对一些常用量词也可简化输入。 “ ” 为输入小写中文数字的前导字符。 “ ” 为输入大写中文数字的前导字符。 例如:输入“i3” ,则键入“ 三” ; 输入“I3” ,则键入“ 叁” 。 ? J用户词库的备份 ? 如何备份自己所定义的词库呢? 智能 ABC 的用户词库存放在目录“C:WindowsSystem32” 下(假定 Windows 安装在目录 C: Windows 下) ,文件名是 tmmr.rem 和 user.rem

13、。如果我们要重新安装 Windows ,就要先备份这两个文件,安装完毕后,再将这两个文件复制到目录“WindowsSystem32 ” 下,覆盖系统默认的同名用户词库文件。这样,即可保证在重新安装系统后,仍可使用原有的用户自定义的词汇。 第一节 汉字键盘输入? 缺陷:不支持 GBK 大字符集。? 3.微软拼音输入法? 微软拼音输入法是微软公司和哈尔滨工业大学联合开发的智能化拼音输入法,是一种以语句输入为特征的第三代输入法,许多对输入速度要求不太高,并且熟悉拼音的用户非常欢迎它。 Office2000 中文版中使用了 2.0 版,Windows XP 中文版和 Office XP 中文版安装了

14、3.0 版,Office 2003 中文版使用了 4.0 版。 第一节 汉字键盘输入? A.设置:? 单击微软拼音输入法状态条上的“ 功能设置” 按钮 ? B. 中文输入 ? 微软拼音输入法 2.0 支持全拼或双拼输入方式(可在“属性”对话框中设置) 。这两种输入方式都支持带音调、不带音调或二者的混合输入。输入法分别以数字键 1,2,3,4 代表拼音的四声,5 代表轻声。输入的各汉字拼音之间无需用空格隔开,输入法能够自动分隔相邻汉字的拼音。如“这是”带音调输入为 zhe4shi4,不带音调输入为 zheshi。带音调拼音输入的字词准确率将高于不带音调的拼音输入。? 微软拼音输入法 2.0 的输

15、入结果为整句或词语。用微软拼音输入法输入一个词句时,可连续输入语句中各字的拼音,一个字的拼音输入结束不用敲空格或回车,待下一个字的第一个拼音输入,会自动将前一字的拼音转化为汉字。输入结果下面有一条下划线,表示当前句子还未经过确认,处于组字窗口的句内编辑状态。此时若发现句内有错字,应按左右方向键将光标移至错字前(候选窗口会自动弹出) ,按减号键或等号键(或单击候选窗口右端的翻页按钮)翻页,出现合适的字词后按数字键,即将输入错误或音字转换错误的字词替换掉。其中,候选窗口中蓝色(由输入法智能匹配)的字词可按空格键直接替换。整句输入、修改结束后需按 Enter 键加以确认。第一节 汉字键盘输入? C.

16、手写输入? 微软拼音的手写识别引擎与市面上销售的各种输入手写笔不相上下。用微软输入法你可以使用鼠标直接在屏幕上书写,只要不是缺很多笔划,它都能识别出来。而且识别速度非常快。? D. 双拼输入 ? 为了提高输入速度,用户可采用双拼输入,即用两个英文字母输入一个汉字。使用鼠标左键单击输入法状态窗口的全拼/双拼切换按钮,切换至双拼输入状态即可。有关双拼的定义,可参见下面的“双拼输入键位表” ? 4.紫光拼音输入法? 紫光拼音输入法是一个完全面向用户的,基于汉语拼音的中文字、词及短语的免费的输入法。特点:? 大容量精选词库,收录 8 万多条常用词、短语、地名、人名以及数字,优先显示常用字词,而字词的使用频度(词频 则从一亿七千万字语料中统计而来。 ? 支持 GBK 大字符集,支持简繁体分别输入。 ? 强大的用户自定制功能,用户可定制输入习惯、定制双拼编码、定制输入界面、定制模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号