语料库与语料库建设

上传人:s9****2 文档编号:498318300 上传时间:2023-11-24 格式:DOCX 页数:9 大小:21.88KB
返回 下载 相关 举报
语料库与语料库建设_第1页
第1页 / 共9页
语料库与语料库建设_第2页
第2页 / 共9页
语料库与语料库建设_第3页
第3页 / 共9页
语料库与语料库建设_第4页
第4页 / 共9页
语料库与语料库建设_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《语料库与语料库建设》由会员分享,可在线阅读,更多相关《语料库与语料库建设(9页珍藏版)》请在金锄头文库上搜索。

1、语料库与语料库建设语料库和语料库建设什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语 片断而建成的具有一定容量的大型电子文本库。目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair )认为 语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作 语言的样本”。阿特金斯等(Atkins & Clear )认为语料库是“按照明确的设 计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库 是“由大量收集的书面语或口头语构成,并

2、通过计算机储存和处理,用于语言 学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈 到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有 明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这 一特点。语料库不同于电子文档,语料库的建设有特定的 研究目的和具体用途,因此在语料抽样范围和文 类覆盖方面都力求取得平衡,在收集语料时需要 考虑到每一文类、体裁、语域、主题类型等的抽 样比例。而大型文档目标在于搜集任何可获得的 语言材料或所限定的数种文类语料,其语言材料 之间的关系较为松散。语料库具有以下特征:1、语料库的设计与建设 有系统的语言学理论指导

3、,语料库的开发具有明 确而又具体的目的;如,布朗语料库用于对20 世纪60年代的美国英语的研究,L0B是与布朗 语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对 比进行美国英语和英国英语的对比研究。2、语 料库的语料是按照明确的语言学原则采用随机 抽样的方法得到的语言运用的自然语料,不是随 意的语言材料的堆积,更不是由某个个人杜撰出 来的。语料库的容量和语料采用随机抽样方式都 保证了语料具有代表性,由此保证基于语料库的 语言研究的科学性、客观性。3、语料文本是连 续的文本或话语片断,而不是孤立的句子或词 汇,可以借以获得语法关系、用法、词语搭配以 及语篇信息

4、。4、语料库以当代先进的计算机技 术为技术手段,语料库语料通过电子文本形式储 存并且是通过计算机处理的,具有资源优势和处 理速度优势。5、基于语料库的研究以量化研究 为基石,以概率统计为手段,以数据驱动为基本 理念。6、语料库既是一种研究方法,又代表着 一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期,在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进 了对语料的重视。1959年夸克(RQuirk)等人着手进行的“英语用法调査” (Survey of English Usage)通过系统的调査建立

5、了第一个现代英语语料库,在此基础上完成的现代英语语法( A Grammar of Cont emporaryEnglish )和英语语法大全(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的 影响。但在当时这项浩大的工程是通过手工的方式完成的。20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基 的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、 基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言 能力为研究对象,语料库收集的只是人们的语

6、言运用,语言运用会因超语言因 素的影响而发生变化,它并不能确切的反映语言能力。2、语料的不充分性。他 们认为自然语言句子的数量是无限的,语料库的规模即使再大也无法穷尽所有 可能的句子,因此“任何自然语料都是偏颇的”。在此后的长达20年的时间里 理性主义在欧美一直占有统治地位,语料库研究一度陷入低谷。但在此期间仍 有些语言学家凭着非凡的勇气继续不懈地从事语料库研究。最早的计算机语料 库布朗语料库(BrownCorpus), 1961年由纳尔逊(FNelson)和库切拉(H. Kucera) 建立。布朗语料库容量为100万词,收集了 60年代有代表性的美国英语语料, 语料选自各种出版物,建库时照顾

7、到了各种文体的平衡,严格按照随机原则抽 样,是一个标准语料库。布朗语料库是第一个现代语料库,它对于后来的语料 库的发展具有重要的影响。1975年,Jan Svartvik开始创建伦敦隆德语料库(LondonLund Corpus),这两个语料库堪称现代语料库的开山鼻祖。20世纪80年代以来,在相对沉寂了近20年之后,语料库研究重新萌发了 生机,迅速得到发展。语料库研究的迅速发展基于以下三个方面的原因:首先,具有语言学基础。 在英国语言学研究中,实证主义从弗斯到韩礼德再到辛克莱一直被传承了下来, 实证主义的基石是对可观察的对象进行研究,作为人们外部行为的语言运用是 可观察的、可靠的依据,而人们内

8、在的语言能力是不可直接观察的,只能通过 语用实例进行推断。语料库是在随机采样的基础上收集的有代表性的真实语言 材料的集合,是语言运用的样本。如果样本具有代表性,采样具有随机性,且 样本的量又足够大,则可以认为样本就是总体的真实代表;样本具有总体的统 计特征,研究语料库中的语言材料即近似于研究语言本身。语料库中的语言材 料都是人们实际使用的语言材料,因此语料库语言的研究结果具有可靠性和真 实性。强大的技术支持是语料库迅速发展的又一原因。主要体现在以下三个方 面:一、以计算机为主导的硬件技术的发展。PC机的兴起、计算机计算速度的 高速增长、存储介质的开发、存储容量的剧增都为计算机语料库的建设发展提

9、 供了技术保障。二、计算机网络的发展为语料库的发展和应用提供了有利条件。 首先,大量的文献和文件具有电子文本形式在网上传播,为语料库语料的获得 提供了便利条件;其次,大量语料库成为在线语料库,允许用户在网上实时使 用;再者,研究者和用户能够在网上就语料库及时交流经验和看法。三、可以 共享的语料库索引软件的开发。如今的索引软件大多已不是专为某一个语料库 单独设计与开发的,而是能够应用于各种类型甚至不同语种的语料库。语料库 迅速发展的第三个原因是需求的增长。在语料库的应用领域,不断增长的用户 群体和不断扩大的应用领域进一步体现了语料库的应用价值。其应用包括传统 领域、扩展领域和新兴领域。传统领域包

10、括自然语言处理、语法分析和辞典编 纂等,扩展领域包括教材的组织编写、机器翻译、语言识别和语言对比;新兴领域包括语言教学、数据驱动语言学习、中间语对比分析研究、多媒体计算机 辅助教学、在线语料库。在上述因素促动下,语料库建设迅速发展,相继出现了一批语料库,如, LOB语料库(Lancaster-Oslo-Bergen Corpus)、COBUILD语料库、国 际英语语料库(The In ternational Corpus of English ,简称 ICE)、赫 尔辛基历史英语语料库(The Helsinki Corpus of His torical English)及各 不同语种、不同用

11、途类型的语料库。三、语料库的建设与开发(一) 总体设计首先语料库的建设目的要明确,建库的目的决定着语料的选取。如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设 的中国学习者英语语料库(CLEC )建库目的是:1、通过分析中国英语学习者写 作中典型错误及其与学习者中间语发展的内在关系,为中国外语教学,尤其是 英语写作教学,提供积极反馈;2、对学习者语料库与英语本族语语料库进行对 比分析。语料库的规模设计。在规模上,只要条件允许,应该是语料库的规模越大 越好。就语料库发展趋势来看,建立固定规模的语料库并非语料库发展的大趋 势,因为语言本身是动态发展的,语料库也应当是动态的,可以不断

12、扩充的。语料库的内容。如果说规模是针对量的问题,那么,内容就是要解决质的 问题。对于内容,最根本的是要真实,它包括两个方面,1、要收集实际使用中 的文本,而不能是研究者杜撰的;2、要收集符合条件的文本。如要建立的是学 习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西 收进来。(二) 具体实施1、语料的搜集现代计算机技术和网络资源使得语料库语料的获得变得方便容易。传统的 语料库建设,语料输入工作极为浩繁,基本上靠手工键盘输入和扫描输入,费时费力,且容 易出现错误,需要校对。如今大量的在线语料资源、光盘资料、因特网资源, 包括新闻、邮件列表、电子邮件等,使语料库的建设和扩充变得

13、非常快捷方便。当然,用于不同研究目的的语料库对其语料来源可能要求不同,会影响到 语料的采集。2、抽样语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡,要考虑每一 文类、体裁、语域、主题类型等的抽样比例。乔姆斯基曾经批评语料库不过是试图用很小的 样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性。目前,计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强 语料的代表性。决定语料代表性的主要因素是样本的抽样过程和语料量的大小。 语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围,再 就是确定语料的分层结构,进行分层抽样,如把语料按文类(如小说、新闻报

14、道、科学论文、法律文书、诗歌、散文等)和信道(如书面语和口语)进行分 层抽样。在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽 样。3、语料库的加工文本输入计算机后,一般需要进行一些加工,主要包括语料的标识和语料 的赋码。1)语料库的标识标识主要分两类:一类是对文本的性质和特征进行标识,另一类是对文本 中的符号、格式等进行标识。如CLEC语料库标注了以下主要信息,包括学生类 型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类 型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一 类标识是必要的,因为它们可以用来对文本进行必要的分类,为灵活提取文本

15、进行各类目的研究提供便利,而且它们可以标注在文本开头或者作为另一个文 件保存,丝毫不破坏语料的完整性和原始性。至于第二类标识可以视研究和应 用的目的而定。但不管怎样,保存一份未标识的原文本是很有必要的。2)赋码一些研究不需要赋码语料库,而有些研究需要赋码语料库。当前,语料库的赋码主要有两类:一类是词类码,又称语法码;另一类是 句法码。词类赋码就是对文本中每一个词标注词类属性,这项工作通常是在传统语 法对词类的划分的基础上进行的,只是分类适应要求做得更细。如在LOB语料 库中以NN代表普通名词的单数形式,以NNP代表以大写字母开头的普通名词的 单数形式,如Englishman,以NNS代表普通名

16、词的复数形式,如desks,以VB代表动词的基本形式,如write、see,以VBD代表动词的过去式,如wrote 、saw,以VBG代表动词的现在分词形式,如reading 、eating , 以 VBN 代表动词的过去分词形式,如written 、seen,等等。目前自 动词类赋码技术已经基本成熟,对英语基本上可以通过计算机自动赋码,且赋 码正确率在96%97%左右。句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋 码系统为例,其句法赋码系统分三个步骤:第一步,对文本中每一个词赋以可 能的句法码。该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。 第二步,寻找一些特殊的语法码形式和句法片断,对句法结构作必要的修改。 最后,完成每一可能的句法分析,并逐一赋值,从中选出可能性最大,即值最 大的句法分析作为每句的分析结果。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号