计算机信息技术与语言学课件 精选

上传人:我*** 文档编号:144109498 上传时间:2020-09-06 格式:PPT 页数:40 大小:1.08MB
返回 下载 相关 举报
计算机信息技术与语言学课件 精选_第1页
第1页 / 共40页
计算机信息技术与语言学课件 精选_第2页
第2页 / 共40页
计算机信息技术与语言学课件 精选_第3页
第3页 / 共40页
计算机信息技术与语言学课件 精选_第4页
第4页 / 共40页
计算机信息技术与语言学课件 精选_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《计算机信息技术与语言学课件 精选》由会员分享,可在线阅读,更多相关《计算机信息技术与语言学课件 精选(40页珍藏版)》请在金锄头文库上搜索。

1、信息技术与语言研究,龚箭 2014年秋季学期,语料库应用举例 词典学研究,词典学研究,词典学(lexicography)是应用词汇学的一个分支,研究词典编纂的原则与实践,即通过对词项(lexical item)的搜集、比较、注释和分类,进行辞书的编辑 得益于计算机的强大文本信息检索能力,基于语料库方法的词典编纂能够完成过去由人手工操作几乎不可能完成的任务,基于语料库的词典学研究内容,词的出现频率(常见词还是罕见词) 词义及出现频率(词义常见与罕见) 一个词通常与哪些词同现(词语搭配) 语域(register)、历史时期和方言等非语言因素如何影响一个词的用法模式 某个词的义项及其用法如何分布 表

2、面上同义的词使用和分布如何不同,以英语DEAL为例,词义调查 在语料库中可以查询所有出现deal一词的地方,并给出上下文(如Key Word In Context,KWIC索引) 在LOB(兰卡斯特-奥斯陆-卑尔根)语料库中,deal在不同上下文中有如下一些义项: 处理某个问题 商业交易 表示数量 论述 一种待遇 一种类型的木材,在COCA语料库中查询DEAL,Corpus of Contemporary American English(COCA,当代美国英语语料库)由美国杨百翰大学(Brigham Young University)的Mark Davies创建 收录包括来源于口语、小说、流

3、行杂志、报纸和学术文献等类别的文本超过4.5亿词次 免费访问!(but 需要注册) http:/corpus.byu.edu/coca/,COCA,KWIC - DEAL,DEAL的不同形式的词频,在LOB语料库中(总词次数为一百万): Deal出现182次 Dealing出现52次 Deals出现25次 Dealt出现31次 总共出现290次,每百万词出现频率290次 在COCA语料库中: Deal 出现 87551 次,每百万词出现频率为188次;各种形态出现总数为 128206 次,每百万词出现频率为 276 次,不同语域DEAL的分布,在Longman-Lancaster语料库中,de

4、al做名词和动词在小说和学术两个语域中出现的频率(每百万词次): 小说 名词 107 次 动词 63 次 学术 名词 74 次 动词 176 次 总计 名词 90 次 动词 119 次 在COCA语料库中,deal做名词和动词在小说和学术两个语域中出现的频率(每百万词次): 小说 名词 70 次 动词 69 次 学术 名词 55 次 动词 144 次 总计 名词 124 次 动词 140 次,DEAL在不同语域的词语搭配,在Longman-Lancaster语料库中,deal作为名词在学术语域最常用左搭配和右搭配词及其每百万词出现频率为: Deal在学术语域最常用的语义是表示”数量”,在Lon

5、gman-Lancaster语料库中,deal作为名词在小说语域最常用左搭配和右搭配词及其每百万词出现频率为: Deal在小说语域最常用的语义也是表示”数量”,但也有相当数量在学术语域里很少使用的其它义项如“一个协议”,deal作为名词在COCA语料库中学术语域中的情况: Deal在学术语域最常用的语义是表示”数量”,deal作为名词在COCA语料库中小说语域中的情况: Deal在小说语域最常用的语义也是表示”数量”,但还有大量“一个协议”的义项,通过语料库我们可以了解一个词的常用词义,并且可以得到这个词在不同语域中的常用词义 为词典编纂中词条提供了真实、详尽的词义来源,并为词义的各项解释排列

6、顺序提供了依据,同义词的分析,语言中往往有许多的同义词,虽然意思相同,但实际的用法和习惯搭配等却大不相同 举英语中 big,large和great为例,三者为同义词,中文翻译皆为“大”之意,但三者在不同的语域中的使用频次、固定搭配等却有区别,Big、large和great的出现频次,Big、large和great在Longman-Lancaster语料库中学术和小说语域的出现频次(每百万词次),Big、large和great在COCA语料库中学术和小说语域的出现频次(每百万词次),Big、large和great的右搭配,在Longman-Lancaster语料库学术语域中,Big、large和

7、great的右搭配,在Longman-Lancaster语料库小说语域中,Big、large和great的右搭配,在COCA语料库学术语域中,Big、large和great的右搭配,在COCA语料库小说语域中,语料库应用举例 语义学研究,罗建平,黄伶燕,名词非范畴化与副名结构的聚合关系,重庆交通大学学报(社科版),2010,研究背景 - 名词非范畴化,语言非范畴化(decategoriation):非范畴化是指范畴内成员丧失一个或者多个范畴属性,逐渐远离范畴中心而进入另一个范畴的动态过程 例如动词丧失动词属性,名词变成形容词等等 “副词+名词”结构体现了名词的非范畴化,例如“很中国”,“很鬼”

8、,“很男人”,研究背景 聚合关系,结构主义(structuralism)认为,句法结构中存在两种关系,组合关系(syntagmatic relation)和聚合关系(paradigmatic relation) 组合关系:A boy kicked the ball,A与boy构成组合关系,进而和kicked以及the ball构成组合关系 聚合关系:A _ kicked the ball,横线处可填boy、girl、dog等,却不能填boys、girls、dogs等,这些可填和不可填词语分别形成了聚合关系,研究问题,对于“副词+名词”结构,为什么我们能说“很中国”、“很男人”、“很阿Q”,却不

9、能说“很桌子”、“很馒头”、“很韭菜”? 通过研究这一结构中名词的聚合关系,研究名词如何能够被副词修饰的语法问题,来解释名词的非范畴化现象,研究的方法 基于语料库的方法,通过对语料库提供的“大量自然而真实的语料”,对古代汉语、现代汉语、英语进行历时研究 所使用的汉语语料库之一是北京大学汉语语言学研究中心语料库 CCL 语料库,包括现代汉语语料库、古代汉语语料库和汉英双语语料库 ,非范畴化的共时性,Shes always giving her mother a hard time these days. Other officials walked in and out regularly to

10、 give advice, or pass on information. At a given time well all start shouting and cheering. Given that there was so little time, I think theyve done a good job. (1)具有动词的所有特征 (2)丧失了部分动词特征,如后接宾语,称为非谓语动词 (3)丧失所有动词特征,成为形容词,修饰time (4)丧失所有动词特征,成为介词,非范畴化的历时演化过程,文章考察的名词非范畴化历时演化包括如下几类名词 专有名词,如地名(中国) 兼类名词,即兼有

11、其它范畴的名词(鬼) 普通个体名词(男人),专有名词,赵勇先生是很中国的。 你就是现在这种打扮,很中国,很东方。 这种“很美国”的场景当然不会出现在中国。那么我们出现了“很中国”的场景没有? 作者说地名具有文化属性,可以隐喻映射地方的风情特色、概念的文化内涵等意义,因而既然可以“很中国”,也可以“很其它地名”,推而广之可得到“很人名”,“很机构名”等等如: “很阿Q”,“做人别太陈凯歌”,“太CNN”,“太Microsoft”,专有名词,作者的结论是:专有名词通常都能用于“副词+名词”结构中,条件取决于语境,取决于外因或特定事件,几乎任何专有名词在一定条件下都能聚合到这个结构中,兼类名词,“鬼

12、”字词性的历时演化 予仁若考,能多材多艺,能事鬼神;(文件名:01周今文尚书) 丘之所以说我者,若告我以鬼事,则我不能知也;若告我以人事者,不过此矣,皆吾所闻知也。(文件名:03战国庄子) 宋景文诸公在馆,尝评唐人诗云:“太白仙才,长吉鬼才。”(文件名:08唐唐诗李贺) 三来自知假货,终是怀着鬼胎。(文件名:12元话本元代话本选集) 那李瓶儿连忙穿衣不迭。玉楼道:“五姐,休鬼混他。”(文件名:13明小说、金瓶梅(崇祯本) “哈哈,你真鬼呀。”(文件名:14清、小说、小五义) 孔秀一想:嗨,这两小和尚还真鬼!(文件名:15民国小说雍正剑侠图) 她贴近他的耳朵轻声说:“你真鬼!”(文件名:当代文学

13、大陆作家李佩甫 羊的门),兼类名词,其它兼类名词的“副词+名词”非范畴化 同治皇帝自从领略像姑的风味以后,对于此道,也很内行。(文件名:15民国小说同治嫖院) 叶莉这女人长得太妖,总让男人色迷迷的,又特别爱跟男人犯贱。(文件名:当代报刊作家文摘作者:谈歌) 苏东坡就是由于他提倡雅,所以才成为词坛的一个泰斗,这话很经典。(文件名:当代电视电影百家讲坛唐宋词体演进 王洪) 这一点说起来好像很道学,但是你仔细想想,(文件名:当代电视电影百家讲坛周国平谈爱情),兼类名词,作者的结论是:古人第一次说出“鬼混”、“真鬼”的时候,也是一种打破常规、标新立异的用法。只是随后千年、百年的“语用频率”磨去它的新颖

14、性,却又赋予它新的范畴。可以断定,一个名词经历非范畴化之后兼有形容词范畴属性,是可以聚合到“副词+名词”结构中来的。,普通个体名词,普通个体名词的非范畴化 昔日诸葛亮七纵七擒,才是个汉子。我今日也放你七转,你心下何如?(文件名:13明小说三宝太监西洋记) 孙权亦是个汉子,便留着他守门也好;其余墓坟,都要毁移。(文件名:13明小说英烈传) 那宝玉虽是个男人,用力摔打,怎奈两个人死命的抱住不放,也难脱身。(文件名:14清小说红楼梦) 可惜我是个女子,要是个男人,魂灵还要被你摄去哩!(文件名:15民国小说汉代宫廷艳史) “汉子”,“男人”,“女子”等丧失了名词的指称意义,表达的是陈述意义或内涵意义,

15、显现出一定的非范畴化。,普通个体名词,“其实,中国有很男人的男人,很女人的女人,很儿童的儿童”碧雅羚侃侃而谈。(文件名:当代文学大陆作家刘心武短篇,文章标题:一窗灯火) 哪里,你不很男人,很不男人怎么说呢我觉得你很少年。(文件名:当代文学大陆作家刘心武短篇文章标题:一窗灯火) 他呀,还是这么直率,还是这么孩子气。不过,很男人,是条汉子。(文件名:当代报刊作家文摘标题:潘虹独语) 她记起阿美的叮咛,很淑女的走过去。(文件名:当代文学台湾作家于晴 红苹果之恋) “男人”,“女人”,“儿童”,“少年”,“淑女”等表达的是概念的内涵意义,更远离了名词范畴,非范畴化程度更高。,普通个体名词,作者的结论是:普通个体名词与专有名词不同的是,用于副名结构与特定事件无关,而是先经历一个非范畴化过程,然后再用于副名结构。它们又与“鬼”这样的兼类名词不同,非范畴化未达到再范畴化的程度。用于副名结构需要有非范畴化做一个铺垫。,到图书馆外文期刊室查阅2013-2014年的 Modern Language Journal 和 Language Learning 期刊, 每个期刊各选2篇文章,复印后共同读。读完写出读书笔记。笔记的内容是: (1)概括该文的主要内容, (2)写出个人的认识或思考。 每篇笔记不要超过1500字。,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号