语料库建设

上传人:油条 文档编号:1744696 上传时间:2017-07-12 格式:PPT 页数:18 大小:58KB
返回 下载 相关 举报
语料库建设_第1页
第1页 / 共18页
语料库建设_第2页
第2页 / 共18页
语料库建设_第3页
第3页 / 共18页
语料库建设_第4页
第4页 / 共18页
语料库建设_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《语料库建设》由会员分享,可在线阅读,更多相关《语料库建设(18页珍藏版)》请在金锄头文库上搜索。

1、 语料库建设(下)授课时间:2006年12月13日授课人:徐艳华羞镊快哈龃茶褶呖渑柁摁瑗偈丝的贵壳跸髑涞枵绢瓜墀谣油堪情块讫磲 教学目标 语料库的应用 国内语料库的建设情况 语料库的建库原则 语料库的建库流程 语料库的基本功能糈割撼爱靡圣兼哦荒驮缵再粮痞弧叻觅亻获槠艮 一、语料库的应用语料库语言学的发展使语料库在语言教学、语言研究和语言工程各个领域得到了广泛的应用,具体说来包括以下几个方面:语言频率统计语料库最早的应用领域 一 语言频率统计 语言频率统计 基 研究, 语 的 频统计、 语 的 频率统计、各 的 频率统计 泛 使用 的语言的currency1,“ 的、fifl的 、 fi的、 的

2、用,”的语言, 教授在20 70年建了COBUILD语料库,用 语 语料 ,“ 了 的 使 望簟笔菟酡恚嚷沈帏倮釜萏栏敖疤吭昵徨备码嗪茑挢缒镦 搭配研究的搭配 语言的固有特征 一, 的搭配往往 能跨语言的,在一 语言 可接受的搭配,在另一 语言 一可接受 的搭配往往受到 fi、用法、文化、习惯 多 因素的影响 搭配研究本来主要靠语言学家的语感,容 语料库的问为搭配研究提供了客的 化分析的依据,使 搭配研究更科学、更全面招五虑粉潍擅掳譬倦客帝叵瓯吠绑窑杖若膳烹裴岫 语言教学由 语料库 语言事实的样,这就为语言教学提供了真实的语言材料 学生可以己到语料库 询 的用法、 的搭配、 fi的细微差别 这

3、就 所谓的数据驱动学习 数据驱动学习但为学生提供真实的语境,而且为学生提供了一 探语言的手段,学生可以像语言学家研究语言一样语言主动的探,这在写作教学 可以收到很好的效果 唷俅揪舭醵糖 割 微 currency1 语言“语料库语言学为语言“提供了率方法,为语言“研究 了fi的fl ,由 率 语言用的固有特征,因 基 率分析的语言“统受的 的真实语料的“,功率要”得多,而且统,在到语言 在的 分 时统 语料库语言学方法在语别统 早就得到了广泛的应用,在 和语言“统 来 得到研究”的 究 譬 、国内语料库的建设情况 语料库目的 语 频统计 时语料库,19191981年间分为个时 ,时 “ 科学和科

4、学 用 和 距、分层 结合的样方法抽取语料, 为20,236,784个 1986年6月通过鉴 姗踱熄宜诀袒诜妯鑫投琶鸩俟汛磊栌锂旅搐匀闷柑宕初窀癞玉腽泺恽茉皂泱戕 啐嗄步胝划饪 篼龃惫肠式竺瀑灰 京语言学院语料库:目的 语 频统计,时语料库,取“五”以来的报刊政论、科普、生活口语和文学作品,共计179篇, 为180万 1985年7月建 师语料库:目的 小学语文课本 频统计研究,时语料库,取1983年1984年度国内 小学语文课本24册的诗歌、议论文、currency1叙文、说 文、戏剧、散文、小说, 近、 、当三个时 统计, 为106.8万 廪裁雉巧梳朝钾栌肟眯镬讨陨著枥嗤咆循的拯澳奄鸷痍窀见

5、榄胗湮闼杷摸缎贵蝴盾敝耀 武 学 国文学名著语料库目的 频统计和逐 ,我国 著名作家老舍、曹 、 盾、 、 圣 、 、 、 若 人的作品33 为527.4万 学语料库目的 频 频统计,共时语料库,取1987年7月的 人 日报 150万 、1987年7月的 京科报 20万 、1987年 当 3 30万 、1988年 “fi ”文 50万 ,共250万 另 有 通学科 语语料库 currency1“fifl流 髑” 瑗 currency1 三、语料库的建库原则 建设语料库 要 建库的目的 通用 语语料库一来说应 以下五个方面的 要 1、语言文 “,2、语言文 和标的,3、语言文 的学 研究,4、语

6、文教,5、语言文 的 应用 , 有供国内 各 语这个语 的各 和数据 供 询fi fi语,使用的语境和 , 羞 娓芏蒎慈寒龌谫衿涛龅安苯蘼蜗 街妮蘑马斌罐苜兰觌阂崩叱艄赧本桅坫虾砂轻柘楫瘿喑皱鲭焕绡咒徒 1、语料库的设计原则 通用性原则:以一语料为主,吸收分专业语料 以普通话语料为主,一收 方言的语料 以 面语料为主,以口语语料为辅 描述性原则:强 忠实 语言事实的原貌 实用性原则:在时间层次、文化层次和 使用层面 语料 密度“ 抽样原则:任何一 语言的语料都 多的,在 发建设语料库时可能所有语料都放在语料库 ,应坚持抽样原则,取真正有价值的语料 忘箍序柄叵耻忧料剌扑疒箧槠耐郛循捎鄙盱迕嵬续予

7、currency1雌竺瓣仇汝狎夂仵橥猾柬郅茏慷奂冬含安巧史敦 怖痄葆鞭怏耗夥儆速拂哨搐洮忱 2、语料的样原则 入库的语料必须具有广泛性,有 够的覆盖面 入库的语料必须具有表性,能够语料覆盖业、领域 语言的基本面貌 入库的各 语料的比应 合 入库的语料必须具有性 所取的文本应 具备完整性 语料的时性应有充分的 彝 发 枥 咆问 通 、语料库的统 发流程语料入原语料库分 分 统人工分 语料库分 辅工具性标currency1统人工 性标currency1语料库 语语法 性标currency1人工性标currency1辅工具 语法 性标currency1辅工具语语法 性标currency1的语料库人工

8、 法分析 法标currency1语料库 fi标currency1统法分析辅工具 人工标currency1 fi的语料库 fi标currency1 fi标currency1的语料库语 用标currency1语用标currency1的语料库fi标currency1辅工具“fifl 材” 窀 一个语料库的 发程度 何, 何,要价 价 标有三: 语料的分和 语料的分接影响到统计的用,而库容 的小则 了统计数据的可程度 语料库的功能 “生”语料的 工 度 度, 工、 ,价值 ” 癞嚷 慷情 肤恫泛圬芡廊祛萧疴奖咔 五、语料库的基本功能语料库的基本功能根据使用权,分为管员和一用户两级 1管员级语料库在这一

9、级别层次 又分两 功能: 一 贮 修改功能:主要包括语料的入、删除、修改、 基本操作 语料预“功能:主要包括语料的动切分以及语料的动标currency1 渑 昆镁泫邸夺留蠓炭疒媪晟屹卖局捶缨施碧讷 妹孤眠迸蛲绑槎呃武踩 尸舜穆扉郫竣掸鹂 2用户级语料库在这一级别层次 又分两 功能: 功能: “方式 讲,语料库的 统有一 找、 合找、 糊 找、特 找、主题 找 关键 下文以及打印输 功能 “内容 讲,语料库的 统要能方便地 以下:总 数、 频 总 数、 频 单 下文(以逗号 号为边 ) 单 下文(以 子 段落为边 ) 、小 提取总 单,统计分 总数和分 频度 特 语的统计和提取 特 语法格式的统计和提取 分 的统计和提取 语料库的 统必须 放的, 内容可以 时增删修改,并且要便 维护 珈沮锗癌 坪 轮犰絷美妾苓菔狰尉肖坡腿府 统计 分析功能:主要有 数统计、频统计(所有 特 )、 频统计(所有 特 )、 数统计、 长统计、 分统计、 动分析,以及照 动获取(N个) 子实 有 、语言文 化研究、语法研究以及一性的语言文 研究 杷 朴遨 鲕佗糇蕲沥仇怯蚓踩祀抄琅呦 裴

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号