文档详情

美国当代英语语料库简介

第***
实名认证
店铺
DOC
121KB
约7页
文档ID:34378612
美国当代英语语料库简介_第1页
1/7

美国当代英语语料库简介发表于《中小学外语教学(中学篇)》2013 年第 10 期 要】美国杨百翰大学的 Mark Davies 教授主持创立了一系列英语语料库,语料以各种英语变体为主,包括美国英语、英国英语、加拿大英语、《时代》杂志中的书面英语和美国肥皂剧中的英语口语其中,美国当代英语语料库是当前针对美国英语的大型历时语料平衡的网络语料库,具有库容大、语料丰富、检索方便灵活等特点本文介绍了美国当代英语语料库,以语料库及其关系数据库为平台,通过不同检索实例演示了以词汇为中心的应用与操作,以期探讨美国当代英语语料库在词汇教学中的应用关键词】美国当代英语语料库,词汇教学,词汇检索,关系数据库一、美国当代英语语料库美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库,口语、小说、流行杂志、报纸和学术性文体在语料库库容中各占 20%它不仅是一个简单的词典,而且从建立之初就体现了其作为检索语料库的特征,能够协助研究者追溯语言发展中的变迁(Davies,2010)。

该语料库由美国杨百翰大学的 Mark Davies 教授主持创立并在 2008 年正式上线目前,每月有数以万计的包括语言学家、教师、翻译工作者在内的各种类型的研究者通过互联网免费使用该语料库美国当代英语语料库由包含 4.5 亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成从 1999 年至 2012 年这五个部分以每年增加 2 亿词的速度进行扩充,以保证语料库内容的时效性语料库每年更新 1~2 次因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库除了在语料上拥有其他语料库无法比拟的优势外,美国当代英语语料库还将语料和检索软件结合起来,帮助语言研究者方便、快捷地分析和研究语料现有的大部分语料库,如 BNC 等,不仅是有偿使用,而且使用者还需要会运用相关的计算机软件,如Wordsmith、Range 、ParaConc 等,才能分析语料和提取数据美国当代英语语料库做到了语料和检索工具的结合,其检索系统能帮助使用者观察英语词汇的使用规律,促进词汇自主学习在进入 COCA 语料库网址(http://corpus.byu.edu/coca/)之后,整个页面被一分为三,左边是语料库检索主界面(见图 1);右上方是信息栏,公布杨百翰大学语料库研究的新进展,包括新开发的语料库的链接和发布的著作;而右下方则是使用者的信息注册区域。

注册用户使用时,右下方则显示语境共现索引行COCA 语料库的检索主界面分为 DISPLAY、SEARCH STRING、SECTIONS、SORTING AND LIMITS 以及OPTIONS 五个部分 图 1 COCA 语料库检索主界面如图 1 所示,第一栏 DISPLAY 是表示检索结果的显示方式,共有四种选择:LIST、 CHART、KWIC 和 COMPARELIST 是将检索结果成行显示,而 CHART 则是将检索结果用更为直观的柱形图来表示KWIC(Key Word in Context)也叫语境共现(Concordance),以检索词为中心,两端都有该词出现的语境,便于学习者观察该词的使用情况COMPARE 则是用来辨析同义词,选择该项后 WORD(S) 部分会出现两个输入框,用来填写待比较的两个单词SEARCH STRING 一栏是检索的核心部分WORD(S) 一栏支持直接检索,可以直接输入想要了解的词;也支持高级检索,使用者可以点击 WORD(S) 一栏后的问号获取帮助,以便更好地设定检索项COLLOCATES 一栏能够帮助学习者观察语言规律,找出与某个特定词汇最频繁搭配使用的词,对于深入掌握词汇有重要意义。

POS LIST 则是用来限定搭配词的词性,以帮助锁定与某个特定单词搭配使用的某一类词SECTIONS 一栏对检索结果作出了限制,在 SHOW 前面的方框内打钩,表示在检索结果中显示不同文体的组成比例如果在下方的方框内选择 IGNORE,则表示忽略文体差异该方框内的选项设置非常灵活,能最大程度地帮助研究者进行特定领域内的检索研究者可以按照 COCA 的五大基本文体来圈定检索范围,也可以以某一个特定时间段为范围显示检索结果,甚至锁定 COCA 中某一特定话题,如在关于运动的新闻或者涉及教育的学术性文章中进行检索SORTING AND LIMITS 一栏则对检索结果进行排序和限制,以更加直观地呈现检索结果SORTING 有三种选择,分别是频率(Frequency )、相关度(Relevance)和字母顺序(Alphabetical)MINIMUM 一栏则通过对频率或者互信息(Mutual Information)作出最小值限定来排除干扰性检索结果互信息是信息论中的概念,是指一个词的出现为另一个词提供的信息量单词之间的互信息值被用来衡量其相互联系的紧密程度,联系越强,互信息值就越大,一般认为 3 以上的数值有显著意义(张晨、祁坤钰,2009)。

OPTIONS 一栏是可选项,通常处于隐藏状态,点击 OPTIONS 后展开可选择项,可以对出现在检索结果中的最低频率数和每个页面中所提供的语境共现索引行的数量作出限制此外,也可以选择按照具体单词、词目或者是词性来排列检索结果二、基于 COCA 语料库的词汇检索技术笔者拟以 COCA 语料库为例揭示利用语料库进行词汇自主学习的方法和技巧1. 简单检索实例如果要观察某一个具体单词的用法,采用 COCA 主界面的基本查询就足够了查询者可以勾选 KWIC 一项,然后将所要查询的单词输入 WORD(S) 一栏,便可以检索到该词的用法此外,查询者也可以使用高级检索来进行模糊查询例如,在检索框内输入“[vvg]”(注:引号内的内容为检索输入项下同),表示查询所有动词的现在分词形式检索结果显示,在 COCA 语料库中,按照使用频率高低排列的前 10 个动词的现在分词分别为going、trying、looking 、 making、getting、using、 saying、coming、working和 talking或者,学习者试图了解动词 draw 的各种屈折变化,可将“[draw]”输入检索框中,表示查询以 draw 为词目的各种不同用法,检索结果按照出现频率高低分别为draw、drawn 、drew、drawing、draws 和 drawed。

检索结果的最后一项是drawed,点击该词可得到其相关信息,该词在 4.5 亿词的语料库中总的出现频率为 21次,多用于小说类文体中,并且从 2008 年以后该词一次也没有出现过2. 搭配检索实例记住了一个单词的读音、拼写和意义并不意味着能在口语和写作中灵活运用教师要有意识地向学生提供单词在英语中最地道的用法例如,要表达“下雨”这个概念,需要了解与 rain 一词频繁搭配使用的动词,教师可以进行如下操作:在 DISPLAY 一栏中选择LIST,然后在 WORD(S) 一栏输入“rain.[n*]”,表示检索语料库中所有作为名词使用的 rain;接下来在 COLLOCATES 一栏设定与其搭配词的词性,可点击 POS LIST,在出现的选择项中选择“verb.ALL”,COLLOCATES 一栏就会自动出现“[v*]”,将后面的数字框分别选择为 0 和 4,表示检索与 rain 连用的以该词为中心右边 4 个词跨度内的所有动词此外,对于检索结果的显示也要进行设置,如果在 SORTING AND LIMITS 一栏选择按照频率排序,排名靠前的都是些 BE 动词或者是助动词,无法体现与 rain 搭配的实义动词的使用情况。

因此,在排序时应该选择按照相关度排列查询结果选择RELEVANCE 一项,表示查询结果将按照互信息值排列此外,为了使检索结果呈现的是与 rain 连用的搭配词,而不是搭配词的各种屈折变化形式,如现在分词、过去式、过去分词等,还需要在 OPTIONS 中将检索结果设定为按照词目排序从表 1 中可以观察到与rain 连用的动词主要有 pelt、patter 、slacken 、sluice、drench、splatter 和 spatter等查询结果按照互信息值高低排列,以互信息值最高的 pelt 一词为例,该词在整个COCA 语料库中出现的总频率为 1560 次,与名词 rain 在右间隔 0~4 词跨度内搭配出现的频率为 114 次,% 一栏表示这种共现频率与 pelt 一词在语料库中出现的总频率的比率是 7.31%也就是说 pelt 一词在 COCA 语料库中出现在名词 rain 右边 4 个词跨度内的可能性是 7.31%, 这包括了 pelt 的各种时态用法使用者可以点击表 1 中 FREQ 下面的数字观察该搭配词的语境共现索引行,了解其具体用法表 1 与名词 rain 连用的动词情况FREQ ALL % MI1 PELT 114 1560 7.31 8.362 PATTER 40 599 6.68 8.233 SLACKEN 18 332 5.42 7.924 SLUICE 10 305 3.28 7.205 DRENCH 31 1092 2.84 6.996 SPLATTER 31 1135 2.73 6.947 SPATTER 19 953 1.99 6.488 SLEET 12 629 1.91 6.429 DRIP 82 5875 1.40 5.9710 DAMPEN 17 1413 1.20 5.753. 同义词检索实例同义词辨析是外语教学中的一大难题。

传统的英语同义词辨析方法效率低,效果差(杨节之,2007 )COCA 语料库能通过提供大量的实例帮助使用者发现两个同义词之间的差异例如,要区别动词 cheat 和 deceive,可通过如下操作实现在 DISPLAY 一栏中选取 COMPARE,然后在 SEARCH STRING 的 WORD(S)一栏中输入“[cheat].[v*]”和“[deceive].[v*]”,表示检索这两个词作为动词的用法,在其搭配项中限定搭配词为名词,词距长度为 3从检索结果可以看到 cheat 的用法更为普遍,与其搭配使用最多的名词分别是 wife 和 husband,表示用不诚实的手段得到需要的东西;而deceive 经常与 public、world、people 等词连用,表示用谎言使人相信虚假的东西,隐瞒事实三、基于 COCA 语料库的关系数据库的词汇检索技术基于 COCA 语料库中大规模的语料,以词频和搭配为核心开发的关系数据库(http://www.wordandphrase.info)更加直接地提供了被检索单词在英语中的使用情况,确保教师传授的是该单词当前的主流用法作为 COCA 语料库的有益补充,WORD AND PHRASE 关系数据库不仅可以提供检索对象的定义、搭配以及在不同时期不同文体中的使用频率,还可以分析整个语篇,评估和了解其词汇特征和难易度等。

1. 基于频率的独立词汇检索Ellis(2002)指出语言处理模式与输入内容的频率高低密切相关他从音系学、形态句法学、拼写、阅读、词汇、语言理解、程式化表达等各个方面阐述了高频率的输入对语言习得的促进作用基于美国当代英语语料库的关系数据库以频率为基准排列语料检索结果,能够帮助使用者有的放矢地选择重点词汇进行学习,并进一步掌握其主要用法使用者在进入关系数据库的网页后点击 FREQUENCY LIST,会出现以下界面(见图 2):图 2 关系数据库频率检索主界面WOR。

下载提示
相似文档
正为您匹配相似的精品文档