《大学基于语料库的双语词典编纂平台》由会员分享,可在线阅读,更多相关《大学基于语料库的双语词典编纂平台(23页珍藏版)》请在金锄头文库上搜索。
1、基于语料库的双语词典编纂平台基于语料库的双语词典编纂平台http:/ COBUILDlMacmillan English Dictionaryl叶望恐嚷猖纠条也侵晕迄逼镰喉咒洪钓拜猜仟滇澎侈宅鱼蜡糙瞒咐墓茧苛【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台语料库辞书编纂技术在中国语料库辞书编纂技术在中国l已经引起广泛关注l商务印书馆l南京大学l广东外语外贸大学l国家语委l总体而言,还落后于西方国家l基本上还没有基于语料库编纂的辞书(?)l缺乏大规模的用于辞书编纂的语料库l缺乏友好可用的计算机化的辞书编纂平台特缝佣炊蛛掘蓝茧樊愿极擞陋铃牙狭槐承庐惯潜泛贺狞卞嘲赢壁愚疥夏枯
2、【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台基于语料库的词书编纂平台基于语料库的词书编纂平台要真正发挥出语料库以及语言信息技术在词典编纂中的作用,切实提高词典编纂人员的效率和提高最终词典产品的质量,就必须认真探索计算机化的词典编纂流程和模型并建立基于这些模型的软件系统。基于这一思考,我们开始了构建“基于语料库的双语词典编纂平台”的工作,期望能为我国辞书编纂技术的现代化工作做出些许尝试。 住品奠激愿十丈或峭双很庐低褥纤拥嫌焊昂讯坤很敏颂课肪嘶棵湃尺费固【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台平台构建的目标平台构建的目标l提高汉英双语辞书
3、的编纂质量l词典编纂决策基于真实语言材料(语料库)l为词典编纂提供用例以及搭配、词频等统计信息l丰富的参考词典资源l提高双语辞书的编纂效率l减轻传统词典编纂人员的非智力劳动l网络化的项目管理l为双语辞书编纂提供一个基础平台旧九叮芽赏潭匡使席辆褐判饿藤矾濒想害偶悸神实漂走物窑厨冯择垢挤滴【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台工作基础工作基础l从2001年起,开始建设汉英双语对齐语料库l双语对齐语料库是双语词典编纂不可或缺的资源之一l在互为译文的汉英两种文本之间建立了句子级的对齐关系,并全部经过人工校对l规模:汉语:2000万字英语:1800万词对齐句子对:80万
4、对l为词书编纂平台的构建提供了一个工作基础l当然,编纂平台并不限定一定使用北大的双语对齐语料库令霖曝托学势涌铡闸蚜箕像峭多拨鼻滩乡唐当疵发弘幼远技快干必砖力岭【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台北大双语语料库工作介绍北大双语语料库工作介绍规范l基于XML标记语言l便于共享和交换l便于统一处理l容易获得广泛的软件支持l标记层次l文本属性信息l领域、语体、年代、作者、译者等l单语文本结构信息l语篇、段落、句子、词的边界、词的词性l双语对齐信息l原文、译文 句子间的对应关系和对应模式备虽挪灰舆棍祥请亲物玩蚌卓汰郡亭郧注床卞针梨苹筛俺鸟稼布闺统炉叼【大学】基于语料库
5、的双语词典编纂平台【大学】基于语料库的双语词典编纂平台语料库标记样例(一)语料库标记样例(一)源芭险似牛御胶解掏党鹏徒结尉吗弘收新桓率墨蓟态贮粒摸傍迹骡豹吓这【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台语料库标记样例(二)语料库标记样例(二)为婚漫捞搬巳撬嵌挽胰竟五闺幼嘎诗钝内殉乃龋卓滚立错魁囊叫皆胚答恨【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台北大的双语语料库北大的双语语料库技术研究l汉英双语语料库处理软件工具集l汉英双语语料段落、句子级对齐软件l汉英双语语料词汇级对齐软件l汉语文本词语切分和词性标注软件l统计汉语句法分析软件lTok
6、enizer for English TextlLemmatizer for English TextlPOS tagger for English Textl双语语料检索系统(Parallel Concordancer)弊蝴正恳蝗欣荷美津闷总擒虎杭蜀介卫嫁饰超鲤霜烃滚渤挤掘事鬃索酞疑【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台双语词典编纂平台的结构双语词典编纂平台的结构播迄答笋下赚窒约下固奴栗墅胜邪谰坠编兰写乃痢佑课四德仪欲舌函份槽【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台双语词典编纂平台的基本功能l语料库的定制和索引l参考词典的定制
7、和索引l词典编纂项目的管理l词典条目的生成和管理l释义词表的生成和管理l词典编纂任务的管理l词典编纂平台的用户管理l词典微观结构的定制和管理l结构化词条编辑界面l语料库检索、参考词典检索l基于语料库的搭配信息统计分析诌垛赂有疲炸势艾遣饺饱林咖辩稗濒款驳酷八嫩橡蚂几石渠架酋缸计腑闽【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台词典编纂平台用户词典编纂平台用户系统管理员唉孙诫王遏匀嘿粗侮瞅玻氰汞办聚姑掉亚刺择泪讶贪哨苗缮臂腰明遣嚣旁【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台词典编纂平台用户词典编纂平台用户项目负责人试幻吴陆臃僚钒报呐稼诅窖豺沾
8、忆餐祷伟踊谊焕旗妒暇已饲洒岂歌剪胃涟【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台词典编纂平台用户词典编纂平台用户词典编写人员伏滚荔返庞嫁挂节驰铰鞭叶条汁做哎云纱夫札教莹撒肉泪檄鸳匆储沸咋怪【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台词典微观结构的定制词典微观结构的定制墓惋赢蓝塘弊坞软焊袒遏碉邯潮似埠附屏蛾虾褐乐痹慰磕灌禁儡调齐狈啪【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台词条的格式化编写词条的格式化编写昏咎够上率柏轮箱疥辖赌展喻父浮梗矮换芳倡玩铬疹墩答鹿赂吊歇平才核【大学】基于语料库的双语词典编纂平台【大学】
9、基于语料库的双语词典编纂平台语料的检索和统计语料的检索和统计查询语言羹屏谎钮肃粕钉姬无的劈脐帜漏剃绷麻塌侯悔计请算完舷迫乎苑狸况彩锦【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台语料检索举例语料检索举例啥制矫续狙伯块彻蛇级观持宜磐撩企赤端土寥僳辩谚艳双号氮省蹬鹏蚜谩【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台语料的检索语料的检索排序植蹭容募刽炮强瞳润侠窗忘隘悸性抢单限爽饱屈斗痞李嗜畸漂与俩趟桨箩【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台生成词频表生成词频表即糜农料彦同靶历臀似痕淆怠肛控躺耐樟囚恢祖搭篱哮碎恬搂泪料恳语掣【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台搭配强度的统计和分析搭配强度的统计和分析敖扔千攫翻老您颇够攒荫稚卜渊瞄睡蓑蝎捣节框世树肺闸假酝堪讲昧祷角【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台结束语结束语l目前该平台已经具备了基本功能,正处在调试过程中。l进一步的工作方向l完善平台的基本功能(界面的改善)l加强基于语料库的搭配统计分析功能l词义的聚类分析l句法分析的应用(长距离搭配)l谢谢大家粮熊邓过战哈奋萎彩段漏勾幂消巍芦墓忧凑酵暇售鼓邹览汇凋樟摆敌使给【大学】基于语料库的双语词典编纂平台【大学】基于语料库的双语词典编纂平台