浅谈汉语词语的字母组合

上传人:宝路 文档编号:22270319 上传时间:2017-11-26 格式:DOC 页数:2 大小:97.14KB
返回 下载 相关 举报
浅谈汉语词语的字母组合_第1页
第1页 / 共2页
浅谈汉语词语的字母组合_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《浅谈汉语词语的字母组合》由会员分享,可在线阅读,更多相关《浅谈汉语词语的字母组合(2页珍藏版)》请在金锄头文库上搜索。

1、浅谈汉语词语的字母组合拼音字母是用来表述汉字读音的,它是按照汉语拼音规则运行的。国家制定的汉语拼音方案只规范了21个声母和35个韵母,而对几百种音节并没有直接进行规范,因为这些音节是能够根据汉语拼音规则得到的。同样,汉字字母是用来表述汉字字形的,它是按照汉字拼形规则运行的。国家将来制定汉字拼形方案 ,只需规范8种汉字字母,至于几百个汉字部件、几千个常用汉字则没有必要直接进行规范,因为这些常用汉字及其汉字部件都是根据汉字拼形规则得到的。与英语不同的是,汉语中各种词语都是由汉字组合而成的,而不是由汉字字母直接衍生而成的。因此,汉语中各种词语的字母表达,就是构成词语的各个汉字字母组合的集合,即:据统

2、计,10869个汉字总共由71931个汉字字母组成,平均每个汉字是由6.62个汉字字母组合而成的。考虑到词语是由3000个左右的常用汉字组合而成的,而越是常用的汉字,其组合字母的数量就越少。据统计,3500个常用汉字总共由20320个汉字字母组合而成,平均每个常用汉字是由5.81个汉字字母组合而成。前面已述,在10875个汉字中,有638对汉字的字母组合是完全相同的,将其视为重码字的话,则重码率为5.87%。构成词语的汉字越多,字母组合越长,相应的重码率就会越低。据统计,在 GB/T 15732-1995汉字键盘输入用通用词语集中,13403个两字词语只有30对字母组合是完全相同的,重码率仅为

3、0.22%,平均词语码长为9.97,平均每字码长为4.99;5088个三字词语只有10对字母组合是完全相同的,重码率仅为0.20%,平均词语码长为13.59,平均每字码长为4.53;8320个四字词语只有5对字母组合是完全相同的,重码率仅为0.06%,平均词语码长为18.55,平均每字码长为4.64。除了少量汉字单独使用之外,绝大部分汉字都是以词语形式出现的,尤其是以两字词语形式出现的,因为三字词语的数量要比两字词语少得多,大多数三字词语、四字词语还能分解为两字词语,不过,成语是不能再分解的。因此,使用频率很高的两字词语,其重码率及其平均码长就显得特别重要。与其他文字的词语进行比较时,主要采用

4、两字词语的技术指标,而与成语相对应的其他文字,已不再是个词语,而是条短语了。与英文单词对比据统计:188344个英文单词的平均码长为8.95,即英文单词平均由8.95个英文字母组成;13403个汉字两字词语的重码率为0.22%,小到几乎可以忽略不计,其平均码长为9.97,即汉字两字词语平均由9.97个汉字字母组成。比较而言,构成汉字两字词语的平均汉字字母数量要比构成英文单词的英文字母数量多一个,多出比例为11.40%。然而,汉字字母组合的冗余度是比较大的,即是说,汉字的前几个字母已经决定了该汉字字形与其他汉字字形的不同,后面的字母是多余的、可以去掉的。若不是提取汉字的全部字母来组成词语字母,而

5、是只提取汉字前面几个字母来组成词语字母,那么,在容许的重码率范围内,汉字两字词语的平均码长就能缩短。若只提取汉字前6个字母来组成两字词语。据统计,在 GB/T 15732-1995汉字键盘输入用通用词语集所规定的13403个两字词语中,只有75对字母组合是完全相同的,重码率上升为0.56%,其平均码长下降为9.32。若只提取汉字前5个字母来组成两字词语。据统计,在 GB/T 15732-1995汉字键盘输入用通用词语集所规定的13403个两字词语中,只有99对字母组合是完全相同的,重码率进一步上升为0.74%,其平均码长进一步下降为8.55。若只提取汉字前4个字母来组成两字词语。据统计,在 G

6、B/T 15732-1995汉字键盘输入用通用词语集所规定的13403个两字词语中,只有242对字母组合是完全相同的,重码率进一步上升为1.81%,其平均码长进一步下降为7.38。将上例统计数据绘制成下列坐标图:观察该坐标图发现,只提取前5个字母的方案综合性能最优,既让重码率增长不超过容许范围(小于1%) ,又让两字词语的平均码长略低于英文单词的平均码长。同时,在 GB/T 15732-1995汉字键盘输入用通用词语集所规定的5088个三字词语中,只有10对字母组合是完全相同的,重码率仍然维持在0.20%,平均词语码长则下降到12.07。在 GB/T 15732-1995汉字键盘输入用通用词语

7、集所规定的8320个四字词语中,只有5对字母组合是完全相同的,重码率仍然维持在0.06%,平均词语码长则下降到16.40。下表列出了不同字母组合长度的字母组合总数:字母组合长度 4位 5位 6位 7位 8位 9位26个英文字母组合总数 A 45.70万 1188万 3.10亿 80.32亿 2088亿 54295亿8个汉字字母组合总数 B 0.40万 3.28万 26.21万 209万 1677万 1.34亿A/B 111倍 362倍 1078倍 3830倍 12447倍 40452倍比较上表数据发现,在字母组合总数悬殊4万多倍的情况下,8个汉字字母的组词效果居然与26个英文字母的组词效果非常接近,这是个奇迹。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号