国外对英语语料库的研究总结

上传人:bin****86 文档编号:59885356 上传时间:2018-11-12 格式:DOCX 页数:14 大小:23.31KB
返回 下载 相关 举报
国外对英语语料库的研究总结_第1页
第1页 / 共14页
国外对英语语料库的研究总结_第2页
第2页 / 共14页
国外对英语语料库的研究总结_第3页
第3页 / 共14页
国外对英语语料库的研究总结_第4页
第4页 / 共14页
国外对英语语料库的研究总结_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《国外对英语语料库的研究总结》由会员分享,可在线阅读,更多相关《国外对英语语料库的研究总结(14页珍藏版)》请在金锄头文库上搜索。

1、为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划国外对英语语料库的研究总结美国当代英语语料库简介发表于中小学外语教学XX年第10期http:/s/blog_湖北:周韵【摘要】美国杨百翰大学的MarkDavies教授主持创立了一系列英语语料库,语料以各种英语变体为主,包括美国英语、英国英语、加拿大英语、时代杂志中的书面英语和美国肥皂剧中的英语口语。其中,美国当代英语语料库是当前针对美国英语的大型历时语料平衡的网络语料库,具有库容大、语料丰富、检索方便灵活等特点。本文介绍了美国当代英语语料库,以语料库及其关系数据库为平台,通过不同检索

2、实例演示了以词汇为中心的应用与操作,以期探讨美国当代英语语料库在词汇教学中的应用。【关键词】美国当代英语语料库,词汇教学,词汇检索,关系数据库一、美国当代英语语料库美国当代英语语料库是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库,口语、小说、流行杂志、报纸和学术性文体在语料库库容中各占20%。它不仅是一个简单的在线词典,而且从建立之初就体现了其作为检索语料库的特征,能够协助研究者追溯语言发展中的变迁。该语料库由美国杨百翰大学的MarkDavies教授主持创立并在XX年正式上线。目前,每月有数以万计的包括语言学家、教师、翻译工作者在内的各种类型的研究者通过互联网免费使用该语

3、料库。美国当代英语语料库由包含亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。从1999年至XX年这五个部分以每年增加2亿词的速度进行扩充,以保证语料库内容的时效性。语料库每年更新12次。因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。除了在语料上拥有其他语料库无法比拟的优势外,美国当代英语语料库还将语料和检索软件结合起来,帮助语言研究者方便、快捷地分析和研究语料。现有的大部分语料库,如BNC等,不仅是有偿使用,而且使用者还需要会运用相关的计算机软件,如Wordsmith、Range、ParaConc等,才能分析语料和提取数

4、据。美国当代英语语料库做到了语料和检索工具的结合,其在线检索系统能帮助使用者观察英语词汇的使用规律,促进词汇自主学习。在进入COCA语料库网址之后,整个页面被一分为三,左边是语料库检索主界面;右上方是信息栏,公布杨百翰大学语料库研究的新进展,包括新开发的语料库的链接和发布的著作;而右下方则是使用者的信息注册区域。注册用户使用时,右下方则显示语境共现索引行。COCA语料库的检索主界面分为DISPLAY、SEARCHSTRING、SECTIONS、SORTINGANDLIMITS以及OPTIONS五个部分。图1COCA语料库检索主界面如图1所示,第一栏DISPLAY是表示检索结果的显示方式,共有四

5、种选择:LIST、CHART、KWIC和COMPARE。LIST是将检索结果成行显示,而CHART则是将检索结果用更为直观的柱形图来表示。KWIC也叫语境共现,以检索词为中心,两端都有该词出现的语境,便于学习者观察该词的使用情况。COMPARE则是用来辨析同义词,选择该项后WORD(S)部分会出现两个输入框,用来填写待比较的两个单词。SEARCHSTRING一栏是检索的核心部分。WORD(S)一栏支持直接检索,可以直接输入想要了解的词;也支持高级检索,使用者可以点击WORD(S)一栏后的问号获取帮助,以便更好地设定检索项。COLLOCATES一栏能够帮助学习者观察语言规律,找出与某个特定词汇最

6、频繁搭配使用的词,对于深入掌握词汇有重要意义。POSLIST则是用来限定搭配词的词性,以帮助锁定与某个特定单词搭配使用的某一类词。SECTIONS一栏对检索结果作出了限制,在SHOW前面的方框内打钩,表示在检索结果中显示不同文体的组成比例。如果在下方的方框内选择IGNORE,则表示忽略文体差异。该方框内的选项设置非常灵活,能最大程度地帮助研究者进行特定领域内的检索。研究者可以按照COCA的五大基本文体来圈定检索范围,也可以以某一个特定时间段为范围显示检索结果,甚至锁定COCA中某一特定话题,如在关于运动的新闻或者涉及教育的学术(来自:写论文网:国外对英语语料库的研究总结)性文章中进行检索。SO

7、RTINGANDLIMITS一栏则对检索结果进行排序和限制,以更加直观地呈现检索结果。SORTING有三种选择,分别是频率、相关度和字母顺序。MINIMUM一栏则通过对频率或者互信息作出最小值限定来排除干扰性检索结果。互信息是信息论中的概念,是指一个词的出现为另一个词提供的信息量。单词之间的互信息值被用来衡量其相互联系的紧密程度,联系越强,互信息值就越大,一般认为3以上的数值有显著意义。语料库和知识库研究现状XX-12-9摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用

8、于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库1。而知识库是知识工程中结构化、易操

9、作使用,全面有组织的知识集群,是针对某一领域问题求解的需要,采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库美国布朗语料库(BrownCorpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专著、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对

10、今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。2研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛2。语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。在语言学研究领域,语料库为语言研究者和使用者提供了丰富而全面的研究素材,有助于研究者根据大量的语言素材实际得出客观正确的结论。另外,语料库的现代化使得语言学家可以利用语料库分析软件实现语料检索和频率统计,帮助人们观察和把握语言事实,更为准确的得出结论。在应用语言学领域,语料库技

11、术与应用语言学的结合也产生了大量的实用成果。比如,应用语料库产生一系列基于语料库的词典,应用语料库确定语言教学的教材提纲,提供外语教学与研究的良好平台等。而知识库尤其是语言知识库,是帮助计算机了解人类语言的一个媒介和手段,也是让计算机逐渐智能起来的物质前提3。知识库的构建对于自然语言处理的发展具有重要作用,可以满足其对语言句子语义知识的要求,在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面得到了广泛的应用。鉴于以上介绍的语料库和知识库在当今研究中的重要作用,对于语料库和知识库发展现状的研究总结,可以帮助人们更好地了解语料库和知识库的现今已取得发展成果和尚未解决的问题,可以

12、为人们对语料库知识库的进一步研究和应用提供一定的指导作用。3国内发展现状语料库的发展与现状自1979年中国开始建立机器可读的语料库以来,国内语料库发展迅速,取得了相当一部分的成就。早期语料库早期在中国建立的机器可读语料库主要包括:1979年武汉大学建立的汉语现代文学作品语料库、1983年北京航天航空大学建立的现代汉语语料库、1983年北京师范大学建立的中学语文教材语料库以及1983年北京语言学院建立的现代汉语词频统计语料库。早期形成的这些语料库,基本都是手工方式建立的,成本高、效率低。另外,在早期建立语料库时,只形成了初步的国家语料库的建立标准,在语料库建立的统一规范方面问题比较突出。国家级大

13、型汉语语料库在1991年,为了推进汉语的词法、句法、语义和语用的研究,中国国家语言文字工作委员会开始建立计划规模达7000万汉字的国家级大型汉语语料库。虽然该语料库当时在汉语语料库系统开发技术上具有国际领先水平,而且在语料的可靠和标注的准确方面等享有权威性,但是该语料库依靠纯手工建立,在选材方面也受到了一定的限制。目前,该语料库已经具有XX万字的核心语料,经过人们的加工处理,其正在完成从生语料库到熟语料库的过度。大规模真实文本语料库随着技术的进一步发展,大规模真实文本语料库逐渐被建立起来。研究大规模真实文本语料库的单位包括北京大学计算语言学研究所、清华大学、山西大学、哈尔滨工业大学、北京语言文

14、化大学、东北大学、中科院软件研究所、中科院自动化研究所、香港城市大学以及台湾中央研究院等。其中代表性成果有:北京大学计算语言学研究所从1992年开始开展对现代汉语语料库多级加工的研究,先后建成2600万字的1998年人民日报的标注语料库,XX万字汉字、1000多万英语单词的篇章级英汉对照双语语料库以及8000万字篇章级信息科学与技术领域的语料库等。清华大学则在1998年建立了1亿汉字的语料库,它着重研究歧义切分的问题,如今建立的生语料库已达7-8亿字4。双语语料库在20世纪90年代前后,随着外语教学的普及,先后出现了各种不同的双语语料库,比如:北大计算语言学研究所的双语语料库、哈尔滨工业大学的

15、英汉双语语料库、东北大学的英汉双语语段库等英汉双语语料库,北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库、中国海洋大学语言文学院研制的蝴蝶德汉对照语料库以及复旦大学计算机系建立的汉日英分类熟语料库。在该时期,中国语料库的发展进入到全新的蓬勃时期。双语语料库的迅速发展为外语教学提供了丰富的可用资源,对于外语教学的发展起到了巨大的推动作用。少数民族语言语料库由于我国民族众多,民族语言资源丰富,所以近年来,少数民族语言语料库的发展得到了大家的重视。比如,新疆大学从XX年起开始建设现代维吾尔语语料库系统,目前已有生语料800万词;新疆师范大学建立了200万词的维吾尔语语料库,拟发展到300万词;中国社会科学院民族研究所建立了500万藏语字符的藏语语料库;内蒙古大学建立了带有初步切分和标注的蒙古语语料库5。虽然由于少数民族语言的特殊性,少数民族语料库的建设还存在一系列问题,但是少数民族语言语料库的建立足以说明到目前为止我国语料库的发展已经达到了一个新的高度。知

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号