现代汉语词语研究

上传人:bin****86 文档编号:55667899 上传时间:2018-10-03 格式:PPT 页数:55 大小:315KB
返回 下载 相关 举报
现代汉语词语研究_第1页
第1页 / 共55页
现代汉语词语研究_第2页
第2页 / 共55页
现代汉语词语研究_第3页
第3页 / 共55页
现代汉语词语研究_第4页
第4页 / 共55页
现代汉语词语研究_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《现代汉语词语研究》由会员分享,可在线阅读,更多相关《现代汉语词语研究(55页珍藏版)》请在金锄头文库上搜索。

1、基于动态流通语料库的 现代汉语词语研究,北京语言大学 应用语言学研究所 张 普 Z Tel:008610-82303034 Fax:008610-82300365,主要内容,动态语料库 流通度 词语研究,动态语料库,与共时语料库相对而言,是历时语料库,是对语言的变化进行检测和监测的语料库。 特点:语料是动态的语料是历时的语料是与时俱进、不断更新的,语言知识滞后 无法反映大规模真实文本词语,克隆、宽带、超平、背投、非典、疑似、喷塑、科盲、沙尘暴、数字化、VCD、WTO、CEO、因特网、网民、网虫、上网、下载、消毒软件、泡沫经济、环保工程、高新技术、知识创新、纳米技术、现代远程教育、高致病性禽流感

2、、扑杀、叮当村、群死群伤、公投、勇气号、高官、 蒜农、危改、拆迁、房改房、 3加1、3改4、退2进3、市话、高检、扫黄、打假、打黑、反腐倡廉、盗版、大片、管涌、遗洒、千禧、禁放、按揭、套牢 三讲、三个代表、豆腐渣工程、邓小平理论、阿富汗、北方联盟、本拉登、科索沃、申奥、奥组委 APEC、克林顿、布什、反恐、世界杯、黑哨 菲佣、足按、三陪小姐、美体修形、鸿运当头、唐装、脐装、太阳裙、透明装、人体彩绘、人体艺术、酷毖、很in、美白、净白、柔嫩、双赢、人气、另类,年龄的“代沟”,生理年龄的“代”在延长 社会年龄的“代”相对稳定 语言年龄的“代”在缩短,改变语言的时间观,共时时间观 历时时间观 相对时

3、间观共时中有历时和历时中有共时,共时语料库的历时观察,香港城市大学“共时语料库”95-05 观察:大哥大-手提-手持-移动电话-手机互联网-因特网,关于“非典”的例子,2003年2月28日,46岁的世界卫生组织(WHO)传染病专家乌尔巴尼博士在河内一个华裔美国商人约翰尼陈身上发现了一种非常规病毒,引起这种疾病的病毒与以往导致感冒、肺炎等疾病的病毒完全不同,他称之为“非典型肺炎病毒”,并随即向世界卫生组织报告,世界卫生组织建议称这种疾病为“严重急性呼吸系统综合症”。 18天后,乌尔巴尼死于自已一个月前发现的疾病“严重急性呼吸系统综合症”。,关于“非典”的例子,2002年11月:非典型肺炎第一个病

4、例,佛山市。 2003年1月:第一次报告病例, SARS是一个新的病毒,河源市。 2003年1月后,发现SARS病情在中山、佛山、广州市出现了,我们把它命名为非典型传染性肺炎。 2003年2月11号,我们向世界卫生组织驻北京代表处报告了这个情况,世界卫生组织在2月14号发行的流行病记录周刊当中,把它称为SARS。 世界卫生组织(WHO)在3月15日新公布的名称已正式定为“严重急性呼吸道综合征”(Severe Acute Respiratory Syndrome),简称SARS。 3月21号,世界卫生组织开始使用SARS来称呼这个新的疾病。 3月18日,德国和中国香港中文大学的实验室用电子显微镜

5、拍到了一种病毒。5分钟之内,该病毒的照片就通过网站发布出来,以供其他实验室的科学家参考。 3月21日晚上,香港大学的裴伟士向“全球病毒实验室”各成员发了一个电子邮件,宣称从患者组织中分离了一种病毒,经电子显微镜下形态观察表现为冠状病毒。很快这项实验在美国、加拿大等其他成员实验室中重复出来。 3月26日开始,中国参与了世界卫生组织全球协作网路。并且发现SARS的疾病病因可能是冠状病毒。,关于“非典”的例子,有“非典”字样的网页:39458个 新浪有“SARS”的网页:12410个 有“萨斯”字样的网页:1660个 俞允海非典还是SARS ,关于“非典”的例子,2003年入选动态流通语料库的14家

6、主流报纸是(按音序排列):北京青年报 北京日报 北京晚报 法制日报 光明日报 环球时报 今晚报 南方周末 人民日报 深圳特区报 新民晚报 羊城晚报 扬子晚报 中国青年报,关于“非典”的例子,种报纸 年月日月日 总文件数:562669个。即56万2千多个文本。 总字数:426805177字。即约4亿3千万字。,动态追踪发展历程 描述“非典”动态流通曲线的例子,衡量动态语料库的四个标准,是否是动态滚动语料 语料库加工是否是动态的加工方法 是否取得动态的加工结果(走势图) 语料库的文本是否具有量化的流通度属性,报告内容,动态语料库 流通度 词语研究,从频度到流通度,使用度: 提纲 次 类篇 哨棒 次

7、 类篇 通用度: 频度 通用度 猿人 次 . 花园 次 . 欣赏 次 . 阶频度: 表 频度表 下;上 表 通用度表 总差:个词语 ,从频度到流通度,重复 文本 历时 文本 次数 散布 散布 流通 频度 + 使用度 + + 通用度 + + + 流通度 + + + +,流通度的计算,媒体的发行量:流通量(the volume of circulation) 媒体的发行周期:流通密度(the density of circulation) 媒体的发行地区:流通空间(the area of circulation) 媒体的阅读率:流通率(the frequency of circulation) 计

8、算公式:Ct=VcDcAcFc 流通度流通量流通密度流通空间流通率,年月年月 全国周报的阅读率前名排名表,刊名 名次 阅读率 足球 12.9 南方周末 7.3 民主与法制 6.7 报刊文摘 6.5 中国足球 6.4 文摘报 中国电视报 5.8 球迷 4.4 作家文摘 3.7 每周文摘 3.5 体坛周报 3.5 计算机世界 3.2 足球报 3 舞台与银幕 3 健康文摘报 2.5,流通性:流通度例证(一),伟哥 “年月月,中国约有 种以上杂志,种报纸刊文 介绍伟哥。”伟哥“事件告诉中国企业家什么载北京晚报: 年月日。,流通度例证(二、三),妹力(张惠妹)魅力 北京地区报纸 算机谈谈科学名词载科技术

9、语研究年期,报告内容,动态语料库 流通度 词语研究,词语研究,什么是词语 提出词语研究的信息处理背景 当前北京语言大学基于动态流通语料库的词语研究情况 今后的词语研究和应用,什么是“词语”,词语:词和短语;字眼word and phrase 语词:指词、词组一类的语言成分Word and phrase 汉英双语现代汉语词典 词语:交际(表达和理解)中言语(话)的结构单位,即结合紧密、使用稳定的“词”和“语”。可以是我们通常理解的词、短语(词词)、词短语、短语短语等。,研究“语”的背景,“词”和“短语”划界的困难何为“词”?从“猪肉”到“孔雀肉”、“骆驼肉”;经常当作一个词来使用的“语”:成语、

10、谚语、歇后语、熟语、惯用语、缩略语、术语、流行语、字母“词”、数字“词”等。 自然语言理解推进的需求浅层分析和信息提取的需求提出:基本短语、块、语块(chunk)、功能语块、双语语块、语义块、结构串、有效字符串。 认知探索的新进展人在阅读理解中的阅读单位是什么?眼动仪的追踪结果的分析。,短语,形式:词词词短语短语短语 分类:我们不能将所有的“语”收入语典,“语”有两类:固定短语和临时短语。 固定短语的特点:结合紧密、使用稳定如何衡量结合紧密和使用稳定?哪些“语”应该进入“语表”? 一些“语”的流通度远高于一般的词,语义和语用更像一个“词”:改革开放、国民经济、西部大开发、交通拥堵、环境保护、反

11、恐怖活动、非典疑似、高致病性禽流感、走有中国特色的社会主义道路。,词语研究,什么是词语 提出词语研究的信息处理背景 当前北京语言大学基于动态流通语料库的词语研究情况 今后的词语研究和应用,关于动态词语研究,应用语言学面向人的应用 面向机器的应用本体研究 教学 语言信息处理动态词语研究 动态词典,动态流通语料库,支持语言本体研究,流行语研究 字母词研究 IT术语研究 基本词汇研究 数字词研究 通用词语研究,流行语提取与发布,2002年十大流行语发布 2003春夏季十大流行语发布 通用领域 经济领域 非典专题 伊拉克专题 2003年十大流行语发布 通用领域 国际领域 经济领域 非典专题隋岩、杨尔弘

12、、郭惠志、谢学敏等博士,年中国主流报纸“十大流行语”发布,主 办 北京语言大学 中国中文信息学会 中国新闻技术工作者联合会,家主流报纸媒体,北京青年报 北京日报 北京晚报 法制日报 光明日报 环球时报 经济日报 今晚报 南方周末 人民日报 深圳特区报 新民晚报 羊城晚报 扬子晚报 中国青年报,2002年十大流行语发布,1、十六大 2、世界杯 3、短信 4、降息 5、反恐 6、数字影像 7、姚明 8、车市 9、CDMA 10、三个代表 数家电视广播台、数十家报纸、2240网页转载,2003春夏季十大流行语(综合类),1非典(SARS) 2疫情 3消毒 4隔离 5巴格达 6萨达姆 7三峡 8疑似

13、9伊拉克战争 10世界卫生组织(WHO),2003春夏季十大流行语(非典专题),1、非典(SARS) 2、疫情 3、消毒 4、隔离 5、抗击非典 6、疑似 7、口罩 8、体温 9、防控 10、世界卫生组织(WHO),年流行语发布,种报纸 年月日月日 总文件数:562669个。即56万2千多个文本。 总字数:426805177字。即约4亿3千万字。,字母词粗考察,媒体:青年报、 日报 情况:青年报2002年字母词情况粗略统计青年报2002年纯字母串统计表 青年报与日报的情况比较 郑泽芝、史艳兰等博士,IT术语的提取研究,DCC通用领域语料库2002年语料(Gen0)共计489 694篇文档,1 256 602 278字节,约合6.3亿双字节字符。 IT领域语料库(Ccw02),共计12 272篇文档,35 579 231字节,约合1779万双字节字符。王强军博士,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号