国外个主流语料库使用

上传人:宝路 文档编号:3663952 上传时间:2017-08-10 格式:DOC 页数:3 大小:44.50KB
返回 下载 相关 举报
国外个主流语料库使用_第1页
第1页 / 共3页
国外个主流语料库使用_第2页
第2页 / 共3页
国外个主流语料库使用_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《国外个主流语料库使用》由会员分享,可在线阅读,更多相关《国外个主流语料库使用(3页珍藏版)》请在金锄头文库上搜索。

1、1. The Complete Lexical Tutorhttp:/www.lextutor.ca/参考期刊网上刘玉山,胡志军的介绍。是一个语料库中心词索引软件(concordancer),加拿大魁北克大学 Tom Cobb the University of Quebec at Montreal (UQAM), 开发三部分:learners, researchers, teachers 自我学习,研究,教师命题。特别是 concordance 中有 13 个语料库为检索对象。还可以用来对学生作文中的用词分析。http:/www.lextutor.ca/concordancers/conco

2、rd_e.html可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。2. BNC2014 年开始,免费获得,通过 BYU 的申请。British National Corpus 一亿词,书面语 90%,口语 10%,共 4124 篇文本,从 1980 到 1993 年的语料英国牛津出版社朗文出版公司钱伯斯哈洛普出版公司牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库共有七类口语 spoken,小说 fiction,流行杂志 magazine,报纸 newspaper 和学术期刊 academic还有 COCA 分类中没有的两类 non-

3、academic, miscellaneoussecond edition BNC World (2001)third edition BNC XML Edition (2007)extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and un

4、iversity essays, among many other kinds of text通常可进入的那个链接是 BYU, 美国杨百翰大学提供的BYU 大学在 2012 年对语料库经行了重新附码,用的 CLAWS 73. COCA: the corpus of contemporary American EnglishBrigham Young University 美国犹他州杨百翰大学Doctor Mark Davies3.6 亿, 1990-2007 年间,美国国内各种语料口语 spoken,小说 fiction,流行杂志 magazine,报纸 newspaper 和学术期刊 aca

5、demic 共五类语料来源且持续更新中,每年以 2000 万词递增,目前到 1990-2012,共 4.5 亿词Display:显示方式,compare 选项可以用来比较两个词的搭配区别,排列方式选择 relevance相关度标记了语料的时间,便于研究语言历时与共时的变化教学中相关用法查找同义词,如 =scold.V*表示查找所有 scold 的同义词查找某一话题的词汇,如 flower.N*,表示查找与花有关的词汇,如果需要查找更为专业的词汇,就利用互信息。查找某一词汇的语体分布查找词汇的搭配 如 head.v* up 表示 head 作为动词搭配 up4. 同时 BYU 提供在线搜索的其他

6、语料库,例如 Time Magazine Corpus, Corpus of American Soap Operas, Google Books , 可以以后继续学习。5. 布朗家族语料库第一个 Brown 创建于 60 年代,美国布朗大学 500 个文本,每个 2000 词,共一百万词,文本来源于 1961 年美国出版物。our broad genres refer to newspaper texts (A-C, 88 texts), miscellaneous informative prose or general prose (D-H, 206 texts), learned an

7、d scientific English (J, 80 texts), and fictions (K-R, 126 texts), cf. http:/icame.uib.no/archives/No_5_ICAME_News_index.pdf)第二个 LOB ,创建于 79 年代, LOB 语料库创建时间: 1970 年代初创建单位:G. Leech (Lancaster 大学),S. Johansson (Oslo 大学)和 K. Hofland (Bergen 大学) 三方协同,依据布朗语料库的模式,建起了“兰开斯特奥斯陆/卑尔根语料库”(The Lancaster-Oslo / B

8、ergen (LOB) Corpus)。英国 Lancaster 大学和挪威 Oslo 大学以及 Bergen 大学规模层级:100 万词次基本情况:研究当代英国英语,与美国英语对比,The Lancaster-Oslo/Bergen Corpus (LOB)第四 Frown 和 Flob 是德国 Freiburg 大学分别按照原来 Brown 和 LOB 语料库抽样方案而建成的 1991 年的美国英语和英国英语语料库。第五个是 Crown_CLOB 语料库是由北京外国语大学中国外语教育研究中心的许家金副教授和梁茂成教授于 2012 年建成的通用语料库。语料库 语体 子库容量 总库容 语料库

9、语体 子库容量 总库容小说 259467 小说 258722通用 423160 通用 418137学术 163309 学术 162322Brown1961新闻 1810851027021 LOB1961新闻 1796041018785小说 260414 小说 260664通用 421933 通用 419990学术 163228 学术 163286Frown1992新闻 1817481027323 FLOB1991新闻 1807031024643小说 259250 小说 259484通用 422799 通用 421163学术 163197 学术 163139Crown2009新闻 1809801

10、026226 CLOB2009新闻 1796801023466因此 Crown 有 700 个文件, CLOB 有 744 个文件6. LOCNESS 7. BAWS8. BFSU CQPweb 多语言在线语料库检索平台CQPweb 是开源的四代语料库分析工具。CQPweb 的主要特点是:1 、将语料库与分析工具合二为一;2、支持多语种语料库的分析;3、运用了索引技术,检索速度大大快于单机版语料库;4 、充分利用语料库的元信息,提供更多呈现语料分析结果的呈现方式。CQPweb 可以实现 WordSmith Tools 等三代语料库软件的绝大部分功能。概括说来,CQPweb 可以实现以下功能。(

11、1)在线生成语料库的词频表(frequency list) ;(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency) ,并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果。 (3)计算特定词语在语料库中的典型搭配(collocation ) ;(4)计算语料库中的核心关键词(keywords ) ,等。有老友记的,时代周刊, China Daily 等,其他的语料库,不足的是,时代周刊等不全,都只是部分年份的文本。BYU 大学时代周刊语料库(1923-2006 )http:/corpus.byu.edu/time/库容量 1 亿词

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号