语料库利用的两个问题

上传人:mg****85 文档编号:49908674 上传时间:2018-08-04 格式:PPT 页数:55 大小:227.50KB
返回 下载 相关 举报
语料库利用的两个问题_第1页
第1页 / 共55页
语料库利用的两个问题_第2页
第2页 / 共55页
语料库利用的两个问题_第3页
第3页 / 共55页
语料库利用的两个问题_第4页
第4页 / 共55页
语料库利用的两个问题_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《语料库利用的两个问题》由会员分享,可在线阅读,更多相关《语料库利用的两个问题(55页珍藏版)》请在金锄头文库上搜索。

1、关于汉语作为第二语言教学研究中语料库利用的两个问题福建师范大学 沙平一、语料库与语料库语言学1.1 语料库(corpus/corpora):是存储语料的数据库,是以电子文本或 其它电子介质形式存贮在计算机中的、借 助计算机软件进行管理并可以通过计算机 软件进行查询、检索、统计的一定数量的 语言材料的集合,是进行语言研究的一种 普遍资源。一、语料库与语料库语言学1.2 语料库语言学(corpus linguistics ) : 包含两个方面: (1)语料库建设,包括对自然语料进行加 工、标注;(2)语料库应用,用已经标注好的语料进 行语言研究和应用开发。是以现实生活中人们运用语言的实例 为基础进

2、行的语言研究,可以在研究中发 现某些语言规律,也可以对语言假说进行 验证。一、语料库与语料库语言学1.3 汉语中介语语料库建设 汉语中介语语料库的建设是在国内外语料 库语言学和母语语料库建设的影响下开始 的。 国外第一代计算机语料库(196070年代 ):小规模(百万词级),以语言研究为导向 ,词法级。 Brown、 LOB、 London-Lund Corpus。 一、 语料库与语料库语言学 第二代计算机语料库(1980年代):大规模(千万词级),词典编纂应用导 向,句法级。Bank of English、 Longman、 ICE( The International corpus of

3、English)。一、 语料库与语料库语言学 第三代计算机语料库(1990年代):超大规模(上亿词级),标准编码体系深 度标注/多语种NLP应用,语义和语用级。BNC(The British National corpus)、 LDC(Linguistic data Consortium,语言学 资料共享计划)、法兰西语料库、 俄语国 家语料库、 NERC(Network of European Reference Corpora,欧洲参考资料语料库 网/欧洲语料库网(European Corpora Network) 。一、 语料库与语料库语言学 第四代语料库:互联网作为语料库。可以把不断发

4、展的因特网作为虚拟语 料库。一、语料库与语料库语言学 中国大陆的语料库建设:始于80 年代初期,发展迅速。例如:“汉语词频统计语料库”为200万字 次;“现代汉语语料库”为7000万字次;“中 文五地区共时语料库”每年收入的语料达6 亿至8亿多字次;“面向语言教学研究的汉 语语料检索系统CCRL”为8亿多字次。一、语料库与语料库语言学 在这种背景下,从上世纪90年代开始,中 国大陆开始建设外国人学习汉语的中介语 语料库。经过10多年的发展,汉语中介语 语料库建设已初具规模,并在汉语作为第 二语言教学与习得等研究领域发挥了重要 的作用。一、语料库与语料库语言学1.4 已建成的主要汉语中介语语料库

5、 北京语言大学:汉语中介语语料库系统( 1995)、HSK动态作文语料库(2006)、首 都外国留学生汉语文本语料库(2010)、汉语学习者口语语料库(2007) 南京师范大学:外国学生汉语中介语偏误信 息语料库 中山大学:留学生中介语语料库 暨南大学华文学院:留学生汉语中介语语料 库一、语料库与语料库语言学 上海交通大学、厦门大学、北京大学、中 国人民大学、北京师范大学、鲁东大学、 苏州大学、四川外国语学院、华中师范大 学等,也都已经建成或正在建设自己的汉 语语料库。 但是,现有的语料库绝大多数都是书面语 语料库,口语语料库很少,多模态语料库 尚无建成者。一、 语料库与语料库语言学1.5 作

6、用与成果 通过对语料库中较大规模真实语料的 考察,研究者发现了前人未曾发现的一些 汉语中介语现象。语料库为定量分析奠定 了坚实的基础,研究者可以把定性研究与 定量研究相结合,从而使得出的研究结论 具有较强的客观性、普遍性和科学性,这 在一定程度上改变了汉语教学与习得研究 的模式,极大地提高了汉语作为第二语言 教学研究的水平。一、 语料库与语料库语言学 研究案例一:关于汉语补语的习得难度与 习得顺序一般认为有复杂的补语系统是汉语语 法的一个特点,也是外国学习者习得汉语 的一个难点。但是,北京语言大学的课题 组利用“汉语中介语语料库”对带“得”字补 语句的习得状况进行了考察,发现学习者 习得“得”

7、字补语句的偏误率没有人们想象 的那么高。(见下表)。“得”字程度补语句的习得状况形 式词词 次正误误比 + 得 + 多3228/4 + 得 + 很1712/5 + 得 + 不得了87/1 + 得 + 厉厉害22/0 + 得 + 慌22/0 + 得 + 要命11/0 + 得 + 远远11/0“得”字情状补语句的习得状况一级级二级级三级级四级级五级级六级级合计计正413140311922184误614764239(孙德金2002,赵金铭 2008 )一、 语料库与语料库语言学 这一研究结果促使研究者利用相同语料库 对不带“得”字补语句(如趋向补语)的习 得情况进行考察,结果发现学习者习得不 带“得

8、”字补语句偏误率整体高于带“得”补 语句。通过进一步的深入考察,研究者大 体构拟出了英、日、韩(朝)等母语学习 者对汉语不同类型补语的习得顺序。(杨 德峰2003、2008)一、 语料库与语料库语言学中国大陆近年来基于语料库的具有代 表性的研究成果: 赵金铭教授:“基于中介语语料库的汉语 句法研究”(2008) 张博教授:“基于中介语语料库的汉语词 汇专题研究”(2008) 肖奚强教授:“外国学生汉语句式学习难 度及分级排序研究”(2009) 二、关于语料库利用的两个问题 2.1 利用语料库已经成为汉语作为第二语 言教学研究的主流方法 语料库以其语料的充分性、客观性、可验 证性、使用的便捷性,

9、正在使语言学的研 究与应用产生量与质的飞跃。 语料库语言学将数据收集与理论论述有机 地结合在一起,使我们对语言的理解发生 了质的变化.(Halliday1991) 基于语料库的研究方法,已经成为当代语 言学和应用语言学研究中的一种主流方法 。 (王建新2005) 二、关于语料库利用的两个问题语料库的使用,为语言学的研究 提供了一种新的思维角度,辅助人们 的语言“直觉”和“内省”判断,从 而克服研究者本人的主观性和片面性 ,逐渐成为语言学研究的主流方法。 从某种意义上说,语料库的使用 ,是语言学研究的一次革命性的进步 。(冯志伟2006:14) 二、关于语料库利用的两个问题 以北语开发的“HSK

10、动态作文语料库”为例为海内外众多硕士生、博士生所使用 ,为他们的研究及论文写作提供帮助。学术期刊、学术会议及网上可以看到 众多利用该语料库的研究成果。注册用户众多,一旦发生故障会引起 全球性反应。 但是,我们发现在利用语料库进行汉语习 得和教学的研究中,有两个问题值得我们 注意。二、关于语料库利用的两个问题2.2 要注意研究对象的“同质”性欧美现代语言学之父、瑞士语言学家 费尔迪南德索绪尔(ferdinand de saussure 1857-1913)十分重视语言研 究的“同质”问题。他提出了区分语言/言 语、历时/共时、能指/所指、组合关系/聚 合关系等一系列二分的语言学概念,就 是为了确

11、保语言研究对象和语言研究的 同质性。二、关于语料库利用的两个问题研究案例二:关于汉语形容词的语法分布在英语中,修饰名词作定语是形容词 的专利;但在汉语中,对形容词修饰名词 作定语的语法功能却有着截然相反的论述 ,对形容词充当谓语也有不同的看法:二、关于语料库利用的两个问题“形容词能作谓语或谓语中心语和定语 ,多数能够直接修饰名词。”(黄伯荣、 廖序东主编现代汉语,高等教育出版 社,2004年。已发行500多万册)“在不带的的格式里,形容词和名词的 配合受到限制,比如可以说白纸、白头 发,但是不说或不太说白手、白家具。 ”(朱德熙语法讲义,商务印书馆, 1982年。)二、关于语料库利用的两个问题

12、“性质形容词单独作谓语也有一定的限 制,一般只能用于对照、比较的情况。在 没有比较意味的句子里,一般要在前面加 上程度副词很。” (刘月华等主编实用 现代汉语语法,商务印书馆,2002年。 )有学者利用语料库对汉语形容词在书 面语和口语中的分布进行了统计(张宝林 2011):二、关于语料库利用的两个问题形容词的主要语法功能:定语说+谓语说。语语料形容词词谓语谓语频频率定语语频频率口语50429859.1%10821.4%书面语61110717.5%38563.0%口+书111540536.3%49344.2%二、关于语料库利用的两个问题 口语和书面语是不同质的研究对象,基本 义相同的口语词和书

13、面语词经常不能替换 :如“帮”、“帮助”、“帮忙”基本意义相同, “你帮我买张票”,不说“帮助”和“帮忙”;“ 他欺骗我的感情”、“他骗我的钱”,“欺骗” 和“骗”也不能互换。这和书面语与口语有 关,也和汉语的节律有关。 结论:对汉语形容词语法分布的论述应区 分口语体与书面语体。二、关于语料库利用的两个问题研究案例三: “把”字句习得的“回避”说与 “不回避”说 量词的用法、形容词谓语句、无标记的被动句 、带各种补语的句子、“把”字句(多数学生难 点中的难点)、“了”“着”“过”的用法(“了”也是难 点中的难点)、比较句、方位词的用法、长定 语、三位数以上的大数目。 怎么知道什么是难点,什么不

14、是难点呢?一是 通过语言对比研究来发现,二是靠教学经验。 到底什么是真正的难点,最终还要靠教学 经验来检验。(吕必松1992:110)二、关于语料库利用的两个问题 如以英语为母语的学习者的语法难点有:形容 词谓语句、无标记被动句、带各种补语的句子 、“把”字句、“是的”句、比较句以及“了”“着 ”“过”的用法、量词用法、方位词用法、长定语 、大数目称数法以及话语连接等。其中的大部 分,对任何母语背景的学习者来说也都是难点 。 通过语言对比突出语法的重点和难点。对外汉 语语法教学的一大特点是学习者会受到其第一 语言迁移作用的影响。作为第二语言的汉语对 所有学习者都有共同的难点,对不同母语背景 的

15、学习者又有特殊的难点。(刘珣2000:366)二、关于语料库利用的两个问题 对欧美学生来说,受事主语句、存现句、 主谓谓语句,以及时间、地点状语的位置 ,始终是学习的难点,同时也体现汉语语 法特点。而带有普遍性的语法难点,则是 “把”字句、各类补语以及时态助词“了”“着 ”等。至于我们所认为的特殊句式,其实 并非学习的难点,比如连动句、兼语句、 “是”字句、“有”字句以及名词谓语句、形 容词谓语句。这也是从多年教学中体味出 的。(赵金铭 2006)二、关于语料库利用的两个问题 学界共识: 1)最大难点:“多数学生难点中的难点” 。 2)回避:外国学习者对把字句采取了 回避的学习策略,尽量不用,

16、用则必 错。 证据: 1)外国人对把字句的使用率不足百分 之一。 2)谈话一小时,没用一个把字句。二、关于语料库利用的两个问题 有学者利用语料库对把字句使用情况进行 了考察 偏误率:在“HSK动态作文语料库”(1.0版)中 ,共有把字句3682句,其中正确句3221 句,在把字句总数中所占比例约为87. 48%;偏误句461句,在把字句总数中所 占比例约为12. 52%。二、关于语料库利用的两个问题 使用率: 外国学习者:3682 /40000000.0921%。 汉语母语者:张黎2007:46/2100000.0219%李宁、王小珊2001:335万字,0.0894% 人民日报:俞士汶(98/1-6):9801/130000000.0754%CCRL(2000):1498/1930

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号