bd下载对外汉语用字数量统计

上传人:小** 文档编号:42276597 上传时间:2018-06-01 格式:PDF 页数:4 大小:336.83KB
返回 下载 相关 举报
bd下载对外汉语用字数量统计_第1页
第1页 / 共4页
bd下载对外汉语用字数量统计_第2页
第2页 / 共4页
bd下载对外汉语用字数量统计_第3页
第3页 / 共4页
bd下载对外汉语用字数量统计_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《bd下载对外汉语用字数量统计》由会员分享,可在线阅读,更多相关《bd下载对外汉语用字数量统计(4页珍藏版)》请在金锄头文库上搜索。

1、用频度等数据, 对对外汉语用字进行分析。 希望本研究的分析的结果对汉字的教学以及汉字 教学字表的研制等的研究有很一定的参考价值。 二 对外汉语用字数据库的建立 本研究是在建立一个“对外汉语用字数据库”的基础上进行的,该数据库中的汉字及 其使用次数等数据的来源包括以下几个部分: (1)等级汉字。包括全部 2905 个“等级汉字” 以及各个汉字所属的等级; (2) “汉语中介语语料库”生成的汉字表(以下简称“中介语汉 字” ) 。包括语料库中留学生使用的全部汉字及其全部使用次数,为了研究的方便,我们还标 注了每个汉字在各个学时等级 ( “中介语语料库” 中语料的提供者当时已经学习汉语的时间) 的使

2、用次数; (3) 汉语教程汉字表(以下简称“教材汉字” ),该字表包括汉语教程 1年级到 4 年级的全部课文汉字及其使用次数,同时也标注了各个年级汉字的使用次数; (4) 3500 个“常用汉字” ; (5)全部汉字在书面语的使用次数。我们参照清华大学计算机系提供 的 1 亿字语料的汉字字频对全部汉字的使用频度进行了标注。 数据库中包含的各类汉字的字 数见表 1。 表 1 汉字数据库汉字分布表 字集 等级汉字 中介语汉字教材汉字 常用汉字 合集 字数 2905 3295 3984 3500 4383 本研究主要是基于这个综合的汉字字集。我们将目前收集到的“等级汉字” 、 “中介语 汉字”和“教

3、材汉字”3 个字集统称为“对外汉语用字” ,我们假设这 3 个字集基本能够代 表对外汉语教学活动中的汉字情况,我们的分析也是基于这样的假设前提下进行的。 三 基于数据库的统计分析 3.1 “中介语汉字”分析 “中介语语料库”中共出现 3295 个汉字,就是说留学生在汉语中介语语料库中共使用 了 3295 个汉字, 这些汉字的使用次数从 30390 次到 1 次不等。 我们首先将全部 3295 个汉字 按照使用次数分等级进行了统计,表 2 是各个等级的数量和比例。 表 2 中介语汉字使用次数分级表 次数等级 1001 以上 101-1000 次51-100 次11-50 次6-10 次2-5 次

4、 1 次 数量 131 608 300 810 350 674 422 比例 3.98 18.45 9.10 24.58 10.62 20.46 12.81 从上表的数据可以看出,留学生使用的 10 次以上的汉字 1849 个,占 56.11,使用 10 次以下的汉字 1446 个,占 43.89,其中使用 5 次以下的汉字 1096 个,占 33.27,只使用 1 次的汉字 422 个,占 12.81。这些数据说明,虽然中介语语料库中留学生使用的汉字在 数量上达到了 3295 个,但是这些汉字中,还有一定的数量的汉字使用次数较低,还没有达 到普遍使用的程度。 如果我们将使用次数超过 5 次的

5、汉字定为能够普遍使用的汉字的话, 那 么, “中介语汉字”中共有 2199 个汉字能够普遍使用,有 1096 个汉字还没有能够普遍使用, 这些汉字占总字数的 33.27,根据这样的结果我们推测, “中介语语料库”中留学生能够熟 练使用的汉字还是局限在 2000 个汉字左右。 以往的研究发现,汉字文化圈和非汉字文化圈的留学生在汉字的认知过程中表现出一 定的差异。本研究中,我们将对“中介语语料库”中两种不同的文化背景的留学生使用的汉字进行统计分析,我们定义的汉字文化圈包括母语背景为日语、朝鲜语、越南语、粤语、汉 语等的留学生,非汉字文化圈是汉字文化圈以外的留学生。从总字数来看,汉字文化圈留学 生使

6、用的汉字共有 2899 个, 非汉字文化圈留学生使用的汉字 2895 个, 使用的汉字总数很接 近。首先我们对两种不同文化背景的留学生使用的汉字进行了相关分析,结果如下: 表3 两种文化背景留学生汉字使用情况相关分析 汉字文化圈非汉字文化圈 汉字文化圈 Pearson Correlation1.986(*) Sig. (2-tailed) .000 N 43834383 非汉字文化圈 Pearson Correlation.986(*)1 Sig. (2-tailed) .000 N 43834383 从这个结果来看,两种文化背景的留学生在汉字的使用上有很高的相关性,据此我们 推测,在整个“中

7、介语语料库”的汉字使用中,两种文化背景的留学生的汉字使用上并没有 表现很大的差异。我们进一步对两种文化背景的留学生使用的汉字进行使用次数分级统计, 结果如下: 表 4 两种文化背景留学生汉字使用次数分级比较 次数等级 1001 以上 101-1000 次51-100 次11-50 次6-10 次 2-5 次 1 次汉字文化圈 54 427 244 735 334 667 438非汉字文化圈 65 447 231 721 358 628 445从这个数据库已看出,两种文化背景留学生使用的汉字在各个次数等级的分布情况也 是很接近,没有很大的区别。比如前 12 个汉字( “的、我、是、一、了、有、不

8、、人、在、 们、他、个” )是完全一致的,只是在使用次数的排列上略有差别。两种文化背景排列在前 50 个汉字只有 3 个汉字不同。我们进一步分析了两种文化背景共用汉字和单独使用的汉字 情况, 汉字文化背景留学生使用的汉字中有 400 个汉字在非汉字文化背景留学生汉字中没有 出现,这些汉字的使用次数从 55 次到 1 次不等,例如“阪、藤、翁、炭、冈、皂”等。在 非汉字文化圈留学生使用的汉字中,也有 396 个汉字在汉字文化圈的留学生中没有使用过, 这些汉字的使用次数从 58 次到 1 次不等,例如“姚、瑞、玮、乔、捷、娅、勒”等。从这 些汉字来看,大部分是来源于人名和地名等专业名词,有一部是罕

9、用字,例如“帼、釜、笃、 凋、颚、薰、嘻、兀”等,这些汉字在“中介语汉字”中的出现次数很低,而且都不属于“常 用汉字”的范围,这些汉字的出现带有一定的偶然性。 3.2 “中介语汉字” 、 “教材用字” 、 “常用汉字”的比较 留学生汉字的使用情况会不会直接受到所学习的教材的影响,下面我们将作进一步的 分析。我们使用“教材汉字”作为汉语教材的代表,将清华的汉字频率数据作为书面语汉字 的使用情况。下面我们对“中介语汉字”的总使用次数、 “教材汉字”在教材中的总出现次 数以及汉字的书面语使用频度之间的关系进行了相关性分析,结果如下: 表 5 “中介语汉字”、“教材用字”和书面语汉字使用情况相关分析

10、中介语频率语料库频率教材频率 中介语频率 Pearson Correlation1.804(*).956(*) Sig. (2-tailed) .000.000 N 438343834383 语料库频率 Pearson Correlation.804(*)1.842(*) Sig. (2-tailed) .000 .000 N 438343834383 教材频率 Pearson Correlation.956(*).842(*)1 Sig. (2-tailed) .000.000 N 438343834383 从这个结果我们可以推测,留学生使用的汉字及其使用频度和汉语中汉字的使用有很 高的相关

11、性, 但是如果从语料库的频度和教材的频度来看, “中介语汉字” 的使用次数和 “教 材汉字”的相关性要比“中介语汉字”的使用次数与“语料库汉字”的使用频度之间的相关 性更高一些。 这说明留学生使用的汉字及其频度更接近于教材中使用的汉字及其频度, 而和 实际书面语的汉字还是有一定的差距, 比如有一些书面语中相对高频的汉字在 “中介语汉字” 中没有出现,例如“债、券、署、劣、剂、缴、稿、截、咨、仲、彭、押、饲”等。这些汉 字在书面语中的使用次数都在 4000 次以上;也有一些高频汉字在“中介语汉字”中的出现 次数在 5 次以下,例如“税、讯、域、吨、贷、亩、召、筹、誉、伍、兼、偿、驻、械、纺、 拓

12、、储、鉴、档、鹏、岗、昌、估”等,这些汉字在书面语中的出现次数都在 10000 次以上。 这些汉字在书面语中属于常用字,但是在“中介语汉字”中却没有出现或者很少使用,这些 汉字也是我们汉语教学中必须关注的汉字。 “中介语汉字”的使用虽然和“教材汉字”有更高的相关性,但是,分析具体的用字, 我们发现“中介语汉字”和“教材汉字”还有一些差别,我们将差别归结为以下几个方面: (1)教材用字的总数量为 3984 个,比“中介语汉字”多 689 个,这说明“教材用字”的总 量要比“中介语汉字”多。其中“教材用字”中有 915 个汉字在“中介语汉字”中没有出现, 约占全部“教材用字”的 23,就是说有 2

13、3的“教材汉字”在“中介语汉字”中没有出 现,例如“栓、鸽、彬、删、堰、庚、仲、倘、稿、赋、婶”等。 (2)有 226 个汉字在“中 介语汉字”中出现,但是没有出现在教材中,例如“黛、阪、楠、柬、钗、玮、傣、柚、韦、 冕、沂、唢、娅、宪、芜、蚤、蟹、腺、穗、铝、炯、酪、孜、洙、妍、猬、町、眺、邱” 等,这些汉字在“中介语语料库”中的使用次数不高,最多的“黛”出现 62 次,其中只使 用一次的就有 110 个。 “中介语汉字”中有 349 个汉字超出了“常用汉字”的范围,这些汉字的使用次数在 62 次和 1 次之间,例如使用次数超过 20 次的有“黛、阪、颐、楠、兹、喀、钗、瑜、玮、 耶、怡、傣

14、、稣”等。同时有 554 个“常用汉字”在“中介语汉字”中没有出现,例如“啰、 债、券、署、劣、剂、缴、稿、截、咨、仲、彭、押、饲、蒋、勘、搏、驱、巡、颖、袁、 侯、赁、吕、舰、逾”等。其实这些汉字有 384 各汉字在教材中已经出现了,没有在“中介 语汉字”和“教材汉字”中出现的“常用汉字”有个,例如“啰、缴、咨、赁、舰、舶、辐、 汛、艘、冀、樊、瘤、泵、蔗、靖、挠、荔、洼、锌、鳖、殴”等。 3.3 “中介语汉字”和“等级汉字”比较 “中介语汉字”共有 3295 个,其中有 624 个汉字超出“等级汉字”的范围,这些汉字 在中介语语料库中的使用次数从 215 次(例如“韩” )到 1 次不等,

15、其中使用次数在 10 次以 上的汉字有 61 个,例如“韩、琳、黛、姚、杭、阪、颐、玛、贾”等。分析这些使用次数 较高的汉字发现,这些汉字主要是专名用字,比如人名、地名、国家名等。我们将这些汉字 和“教材汉字”进行了对比,结果发现全部 624 个超出“等级汉字”的“中介语汉字”中, 有 423 个在教材中出现了,占 68,例如“玛、娜、洛、鹤、婷、敦、儒、猩、祭、抒、伦、妮、瘾、诺、菲、禺、祠、俑、祈、婉、淑”等。我们推测,留学生使用的大部分超出 “等级汉字”的汉字都是教材中已经出现的汉字。 我们也对各个等级的“等级汉字”在“中介语汉字”中的分布来看,800 个甲级汉字除 了“袜”一个汉字没有

16、出现以外,其他都在“中介语汉字”中出现,但是从使用次数来看, 有 171 个汉字在“中介语汉字”中地排位超出前 800,有的甚至排列在 2000 多位以后,例 如“咳、嗽、桔、礁”等,这些汉字在留学生使用汉字中还没有达到非常常用的等级。而乙 级字中有 153 个汉字的排位是在 800 字以前,例如“京、象、于、越、美、婚、古、受、性” 等,而乙级字中也有 239 个汉字排位在 1604(甲级字和乙级字总和)的后面,例如“烫、 咽、扁、哇、捉”等。丙级字中有排位在 1604 个汉字之前的汉字 239 个,其中 11 个汉字的 排位是在 800 之前,例如“华、尔、圣、诞、斯、兰、宫、亚、番、末、壤”等。从丁级来 看,也有一些字在“中介语汉字”中排位比较靠前,其中排位在前 800 的汉字有“莲、州、 鲁、洲、寺、泰”等 6 个,排位在前 1604 就有 240 个,例如“芳、罗、君、荷、尼”等。 从这样的结果来看, “中介语汉字”按照使用次数排位的结果和“等级汉字”的等级划分之 间还是有很大的差距, 这主要表现在甲、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 经济/贸易/财会 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号