常用语料库应用简介,——以BNC、COCA和Sketch Engine 为例,One-word Introduction,英国国家语料库(British National Corpus/BNC): 库容1亿词的现代英式英语样本集合,文本来源广泛,其中书面语占90%,口语占10% 美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平衡语料库,含有多个字库,具有多种检索功能,可免费使用 Sketch Engine: 语料库管理及检索工具,可有效总结词汇的语法及搭配行为BNC,1. BNC官网主界面(图1-1),,简单搜索区,,基本信息及 功能介绍区,,进入简单搜索功能介绍,图1-1,2. BNC检索功能介绍 2.1 BNC simple search 提供简单的检索功能,适用于快速检查词汇的频数、拼写等可检索: •a word, punctuation mark, or delimited string e.g. jam, ?, Mrs.; •a word-and-POS pair, e.g. CAN=NN1; •a phrase, e.g. not on your life; •a pattern, e.g. colou?r; •an SGML query, e.g. bread _ butter,BNC,2.1 BNC simple search 可通过点击图2.1-1中的链接了解检索语言和词性标注代码,BNC,,检索语言说明,,词性标注代码,图2.1-1,2.1 BNC simple search 随机生成50条结果,不以索引形式排列。
例如检索“feature=VVB”,检索结果如图2.1-2,BNC,,频数,,出处,图2.1-2,2.2 其他可下载的BNC产品 BNC XML edition:BNC全库 BNC Baby:BNC子库,包含小说、新闻、科技、口语四类文本各100万词 BNC sampler:BNC 子库,包含书面语、口语两类文本各100万词 注:以上语料库采用XML格式,需使用XAIRA软件检索,BNC,BNC,3. 其他BNC检索界面(如图3-1),,,图3-1,COCA,4. COCA简介 由美国杨伯翰大学(Brigham Young University)的Mark Davies 教授开发,是大型语料库资源平台http://corpus.byu.edu/的一部分如图4-1,,,图4-1,COCA,4. COCA简介 COCA语料库规模大,涵盖美国1990-2012年间口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊(academic)五大类型的文本 使用界面友好,检索速度快 时效性强,不断更新功能,COCA,5. COCA界面简介 三大功能区: Ⅰ 显示及查询条件界定区,包括:显示方式区,字串查询区,语料库分类区,查询结果排列方式区。
Ⅱ 查询结果数据显示区 Ⅲ 例句显示区,COCA,5. COCA界面简介(图5-1) http://corpus.byu.edu/coca/,图5-1,,显示方式区,COCA,5. COCA界面简介(图5-1),图5-1,,字串查询区,COCA,5. COCA界面简介(图5-1),图5-1,,语料库分类区,COCA,5. COCA界面简介(图5-1),图5-1,,查询结果排列方式区,COCA,5. COCA界面简介(图5-1),图5-1,,查询结果数据显示区,COCA,5. COCA界面简介(图5-1),图5-1,,例句显示区/帮助信息显示区,COCA,5.1 显示方式区(DISPALY) (图5.1-1) LIST——列表显示 CHART——图表显示,可以显示在各语料库类型中的使用频率和各时间段内的使用情况 KWIC——Key word in context,例句以词语索引的形式呈现 COMPARE——单词比较显示,比较两个不同词或短语的搭配情况图5.1-1,5.2字串查询区(图5.2-1) WORDS:输入字符串 COLLOCATES:搭配词限定 POS LIST:搭配词词性限定,COCA,图5.2-1,5.3 语料库分类区 此区共包括42个子语料库,可以对查询的字符串限定语料类型(Genre)和时段(Year) ,并可明确限定某一个子语料库,或某一年某个字词的使用情况。
图5.3-1),COCA,图5.3-1,5.3 语料库分类区 42个子语料库 (图5.3-2),COCA,图5.3-2,5.3 语料库分类区 42个子语料库 (图5.3-3),COCA,图5.3-3,5.4 查询结果排列方式区 Sort by:检索结果的排列方式,可按频率、关联度、或字母顺序排列,一般默认按频率排列 (图5.4-1) Minimum:检索结果的最低限定值,可按频数或MI值进行限定,默认最低频数为10 (图5.4-2),COCA,图5.4-1,图5.4-2,COCA,5.5 查询结果数据显示区 以列表形式呈现结果 (图5.5-1),图5.5-1,,COCA,5.5 查询结果数据显示区 以图表形式呈现结果 (图5.5-2),图5.5-2,,5.6 例句显示区 默认例句显示方式 (图5.6-1),COCA,图5.6-1,5.6 例句显示区 KWIC显示方式(图5.6-2) 颜色代表不同词性,COCA,图5.6-2,6. 主要搜索功能介绍 6.1 搜索words、phrases、lemmas、wildcards和其他更加复杂的字词 6.1.1 检索某一词形 输入“feature”(图6.1.1-1),COCA,图6.1.1-1,6.1.1 检索某一词形 在搜索结果区可得到“feature”的频数 (图6.1.1-2 ) 点击该词,可在例句显示区看到含有“feature”的词条(图6.1.1-3),COCA,,,图6.1.1-2,图6.1.1-3,6.1.1 检索某一词形 在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4),COCA,,图6.1.1-4,COCA,6.1.2 检索某一词性的单词 输入“feature.[v*]”,可得到“feature”做动词时的使用情况 (图6.1.2-1) “.”表示feature不与其后的字符串组成短语 “[v*]”代表所有形式的动词 点击POS LIST后的问号,可了解具体词性代码,图6.1.2-1,,6.1.3 检索短语 输入“white [n*]”(图6.1.3-1) 可得所有white修饰的名词短语 (图6.1.3-2),COCA,图6.1.3-1,图6.1.3-2,,6.1.4 检索lemma 输入“[suggest]”(图6.1.4-1) 可得suggest所有词形的使用 情况(图6.1.4-2),COCA,图6.1.4-1,,图6.1.4-2,6.1.5 使用通配符检索 “*”代表任意数量的字符 “?”代表一个任意字符 输入un*ly和r?n*,结果如图6.1.5-1, 6.1.5-2,COCA,图6.1.5-1,COCA,6.1.5 使用通配符检索,图 6.1.5-2,6.2 检索搭配词 如需检索prevail前的名词,可在WORD(S)里输入“[prevail]”,COLLOCATES里输入[n*],右边跨距设为0, 如图6.2-1,COCA,图6.2-1,COCA,图6.2-2,6.2 检索搭配词 点击conditions可进一步观察prevail的语境 (图6.2-3) 通过观察例句,我们发现与prevail共现的conditions常有消极意义的词修饰,例如harsh, precarious, daunting, severe, colder and drier, dangerous等 点击其中一条例句,可查extended context: Relatively peaceful conditions existed when the survey was conducted in April 1999. Very different conditions prevail three and a half years later. If similar findings are observed under these dissimilar conditions, confidence in their accuracy and generalizability will increase.,COCA,6.2 检索搭配词,图6.2-3,COCA,,6.3 对比某词项搭配词在两个子库中的频数 对比[suggest]前出现的名词在Academic和Fiction子库中的频数 在Section 1中选择Academic,在Section 2中选择Fiction 如图6.3-1,结果如图6.3-2,COCA,图6.3-1,6.3 对比某词项在两个子库中的频数 两子库中suggest的搭配词显著不同,频数也相差很多,COCA,图6.3-2,6.4 进行语义趋向比较 对比generate和create语义趋向 在显示方式区选择COMPARE,WORD(S)后输入[generate]和[create],COLLOCATES后输入[n*],如图6.4-1,结果如图6.4-2,COCA,图6.4-1,6.4 进行语义趋向比较 SCORE的值越高,越趋向与该检索词搭配 通过初步观察搭配词可知,generate侧重于使内在固有的性能释放和呈现,create侧重于挖掘出原来不存在的东西,COCA,图6.4-2,,,,6.5 搜索近义词 搜索indicate的近义词 WORD(S)后输入[=indicate].[v*],如图6.5-1 结果如图6.5-2,COCA,图6.5-1,图6.5-2,,7. 新增功能 7.1 Words and Phrases (图7.1-1) http://www.wordandphrase.info/,COCA,图7.1-1,,,7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List (图7.1.1-1) 输入任意词,可获得该词在COCA词表中的排位、频率、搭配词、词语索引、近义词等信息。
如图7.1.1-2,COCA,图7.1.1-1,7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List,COCA,图7.1.1-2,频数,近义词,词语索引,释义,各字库频数,7. 新增功能 7.1 Words and Phrases 7.1.2 Analyze texts(图7.1-2) 输入任意文本,可获得该文本中的高频学术词汇或短语COCA,图7.1-2,7. 新增功能 7.1 Words and Phrases 7.1.2 Analyze texts(图7.1-2),COCA,图7.1-2,图7.1-2,7. 新增功能 7.2 Academic Vocabulary Lists http://www.academicvocabulary.info/ 可免费下载学术词汇词表,COCA,Sketch Engine,8. Sketch Engine 简介 http://www.sketchengine.co.uk/ 付费软件,但可注册30天免费使用帐号,如图8-1,图8-1,Sketch Engine,8. Sketch Engine 简介 语料库管理软件,预设200多个语料库,并可加载个人语料库,如图8-2,图8-2,,Sketch Engine,8. Sketch Engine 简介 主要功能 Word Sketch:呈现所检索词项在语法结构下所搭配的高频词汇 Thesaur。