语料库语言学ppt

上传人:wt****50 文档编号:53481722 上传时间:2018-09-01 格式:PPT 页数:27 大小:105.50KB
返回 下载 相关 举报
语料库语言学ppt_第1页
第1页 / 共27页
语料库语言学ppt_第2页
第2页 / 共27页
语料库语言学ppt_第3页
第3页 / 共27页
语料库语言学ppt_第4页
第4页 / 共27页
语料库语言学ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《语料库语言学ppt》由会员分享,可在线阅读,更多相关《语料库语言学ppt(27页珍藏版)》请在金锄头文库上搜索。

1、语料库语言学 Corpus Linguistics,张凤云,什么是语料库?语料库(corpus,复数形式corpora)顾名思义就是存放语言材料的仓库(或数据库)。现指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的文本。,语料库语言学的定义,什么是语料库语言学?作为一个学科的名称 “语料库语言学”与“语法学”或“语义学”不同,它不属于语言自身某个侧面的研究,而是一种以语料库为基础的语言研究方法。它实际上包括两方面的内容:一是对自然语料进行加工、标注;二是用已经标注好的语料进行语言研究和应用开发。,语料库语言学的发展史,一般以乔姆斯基(N.Chomsky)转换生成语法的兴衰史为参照

2、点,将语料库语言学的发展史大致分为三个时期: 早期的语料库语言学 乔姆斯基的转换生成语法时期 语料库语言学的复苏时期,早期的语料库语言学,早期的语料库语言学是指20世纪50年代中期以前,即以乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。在50年代,语料库语言学曾被广泛使用,主要集中体现在以下几个方面: 1)语言习得 2)方言学 3)语言教学4)句法和语义 5)音系研究,乔姆斯基的转换生成语法时期,1957年乔姆斯基句法理论及其以后一系列论著的发表,根本改变了语料库语言学的早期发展状况。在这段时期中,笛卡尔的理性主义占据主导地位,经验主义几乎无立足之地,被视为经验主义产物的各种语

3、料库自然被完全否定。,经验主义 empiricism,理性主义 rationalism,语料库语言学的复苏时期,80年代以来,语料库语言学在相对沉寂了近20年后,开始复苏,并得到迅速发展。主要表现在下面两方面。(1)第二代语料库的相继建成。1)LOB2)TLF3)赫尔辛基历史英语语料库4)ICE(2)基于语料库的研究项目增多。,1959-1991年语料库研究项目统计表,语料库语言学的主要研究内容,语料库的建设与编纂 语料库的加工和管理技术 语言研究中语料库的使用 语料库在计算语言学中的应用,语料库设计和编纂中的问题,语料库设计和编纂的出发点是:如何使得在其基础上开展的语言调查是合理的和可靠的。

4、因此Kennedy(1998)指出了语料库设计师所面临的最基本问题:这个语料库所采集的语言数据是否真正代表了某种期望的语言或语体。在语料库的建设和编纂过程中应考虑的问题包括: (1)静态与动态 (2)代表性和平衡 (3)规模,语料库的加工和管理技术,主要是指用于语料分析、标注、维护和检索软件的工具。语料库不仅仅是文本的集合,它应该具有良好的存取性能,一边是各种研究人员都能从中检索出自己需要的信息。因此语料的检索是其中一项重要的工作。 目前普遍使用的检索技术:1)逐词索引(concordance)2)词簇(cluster)3)搭配(collacates)4) 词表(word list)5)关键词

5、表(keyword list)27,语言研究中语料库的使用,1.言语研究: (1)语言学理论 。(2)语言史研究。(3)句法、词法及自动语法分析。 2.词汇研究: 编纂词典及工具参考书。 3.语义学 4.语用学和话语分析(很少) 4.社会语言学 5.心理语言学 6.外语教学,语料库语言学在计算语言学中的应用,20世纪90年代以来在自然语言处理(NLP)和计算语言学的研究中,语料库方法和统计语言模型迅速崛起,成为主流技术。主要用法如下:1)汉语文本中交集型切分歧义的研究2)汉语基本名词短语识别研究3)基于结构词义空间的汉语词义排歧模型,语料库的分类,按应用取向分为:通用型和专用型语料库 按信道分

6、为:笔语和口语语料库 按语言属性分为:单语、双语、多语语料库 按语言变体分为:本族语、译语、学习者语料库 按时间分为:共时和历时语料库 按语料状态分为:静态和监控语料库,国外语料库的介绍,国内语料库介绍,汉语现代文学作品语料库(1979年),527万字,武汉大学 现代汉语语料库(1983年),2000万字,北京航空航天大学 现代汉语词频统计语料库(1983年),182万字,北京语言大学 台湾中央研究院平衡语料库,500万词,是世界上第一个带有完整词类标记的汉语平衡语料库。 中文五地区共时语料库(1995年),香港城市大学 汉语精加工语料库 特殊英语语料库 中国英语(China English)

7、语料库 ,河南师范大学 军事英语语料库(Corpus of Military Texts) ,解放军外语学院 人民日报语料库(2700万字) ,北京大学计算机语言学研究所,语料库语言学的不同研究方法,由于语料库语言学依赖自然数据,因而语料库语言学从本质上说是实证性的,其语言观是经验主义的语言观。按照研究中对语料库依赖程度的不同,可以把依赖语料库的研究方法大致分为三类:1) 语料库指导的方法242)基于语料库的方法253)语料库的驱动方法26,语料库研究的方法论特色,(1)数据的区别性特征:语料库语言学数据以其验证性、大数量性、自动化、计量性等特征有别于其它类型的数据。 (2)特征性分析技术:包

8、括频数统计、词语索引分析、搭配分析、词从、主题词等。 (3)自下而上与自上而下兼用的精密分析过程 :经典语料 库语言学研究中的归纳与推演,数据观察与理论讨论,往往是层层展开,步步深入,穷尽一切可能,逐渐逼近,到达结论。,语料库研究方法的局限性,(1)语料库语言学理论尚需要体系化和简约化。 (2)其研究思路和方法存在一定的分歧。 (3)分析方法和技术需要进一步突破 (4)语料库研究的应用尚需要更深入的探讨。,国内语料库研究的局限性,(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。(2)一些研究将事实与译论混在一起,将语料库数据与 直觉数据杂合,宏观概述

9、多而语境分析少。(3)数据与观察与结论之间,不同理论之间跳跃大,缺失环节多,没有语料库语言学所熟悉的范式特征。,语料库语言学需要解决的问题,语料库设计的目的。 收集语料时的文本形式、文本所有权和版权问题。 需要不断更新应用软件以满足语料库的发展。 语料库的规模问题。 语料库的代表性问题。 语料的时限问题。 由于语料库须不断更新的需要和检索手段的改良而对语料库标准化提出的更高要求。,检索实例,参考文献,http:/corpus.byu.edu/ http:/www.corpus4u.org/ 杨惠中等:语料库语言学导论 上海外语教育出版社 2002 梁茂成,李文中,许家金: 语料库应用教程 外语

10、教育与研究出版社 2010 Kennedy, G. 语料库语言学入门 外语教育与研究出版社 Biber, D. 语料库语言学 外语教育与研究出版社 Meyer. 英语语料库语言学导论 上海外语教育出版社 2008 刘泽权:红楼梦中英文语料库的创建及应用研究 光明日报出版社 语料库语言学(半年刊) 外语教学与研究出版社,语料库指导的方法 corpus-informed approach,这种方法:对语料库进行分析,得到各种词语、搭配和结构在语料库中的出现频率、使用场合、语体等信息,然后在这些语料库信息的指导下编写合适的教学材料,较为间接地把语料库的信息用于语言教学中,语料库主要起到一种指导性作用

11、。17,基于语料库的方法 corpus-based approach,由研究者根据以往的语言研究成果或对语言的认识,首先提出假设,然后到语料库中去验证假设。假设是否成立取决于语料库中的语言实例。基于语料库的研究方法以概率为基础,是统计学和实证研究方法在语料库语言学领域的具体应用。17,语料库驱动的方法 corpus-driven approach,这种方法主张,我们在对语料库进行分析之前并无任何假设,通过对语料库中的所有例证进行穷尽性的分析和归类,得出有关语言使用情况的假设乃至结论。语料库驱动的研究方法的基本程序是“观察假设归纳理论整合”(obsevation leads to hypothesis leads to generalisation leads to unification in theoretical statement)。17,11,24,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号