【大学】基于语料库的双语词典编纂平台

上传人:枫** 文档编号:577928737 上传时间:2024-08-23 格式:PPT 页数:23 大小:2.66MB
返回 下载 相关 举报
【大学】基于语料库的双语词典编纂平台_第1页
第1页 / 共23页
【大学】基于语料库的双语词典编纂平台_第2页
第2页 / 共23页
【大学】基于语料库的双语词典编纂平台_第3页
第3页 / 共23页
【大学】基于语料库的双语词典编纂平台_第4页
第4页 / 共23页
【大学】基于语料库的双语词典编纂平台_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《【大学】基于语料库的双语词典编纂平台》由会员分享,可在线阅读,更多相关《【大学】基于语料库的双语词典编纂平台(23页珍藏版)》请在金锄头文库上搜索。

1、基于语料库的双语词典编纂平台基于语料库的双语词典编纂平台http:/ COBUILDlMacmillan English Dictionaryl语料库辞书编纂技术在中国语料库辞书编纂技术在中国l已经引起广泛关注l商务印书馆l南京大学l广东外语外贸大学l国家语委l总体而言,还落后于西方国家l基本上还没有基于语料库编纂的辞书(?)l缺乏大规模的用于辞书编纂的语料库l缺乏友好可用的计算机化的辞书编纂平台基于语料库的词书编纂平台基于语料库的词书编纂平台要真正发挥出语料库以及语言信息技术在词典编纂中的作用,切实提高词典编纂人员的效率和提高最终词典产品的质量,就必须认真探索计算机化的词典编纂流程和模型并建

2、立基于这些模型的软件系统。基于这一思考,我们开始了构建“基于语料库的双语词典编纂平台”的工作,期望能为我国辞书编纂技术的现代化工作做出些许尝试。 平台构建的目标平台构建的目标l提高汉英双语辞书的编纂质量l词典编纂决策基于真实语言材料(语料库)l为词典编纂提供用例以及搭配、词频等统计信息l丰富的参考词典资源l提高双语辞书的编纂效率l减轻传统词典编纂人员的非智力劳动l网络化的项目管理l为双语辞书编纂提供一个基础平台工作基础工作基础l从2001年起,开始建设汉英双语对齐语料库l双语对齐语料库是双语词典编纂不可或缺的资源之一l在互为译文的汉英两种文本之间建立了句子级的对齐关系,并全部经过人工校对l规模

3、:汉语:2000万字英语:1800万词对齐句子对:80万对l为词书编纂平台的构建提供了一个工作基础l当然,编纂平台并不限定一定使用北大的双语对齐语料库北大双语语料库工作介绍北大双语语料库工作介绍规范l基于XML标记语言l便于共享和交换l便于统一处理l容易获得广泛的软件支持l标记层次l文本属性信息l领域、语体、年代、作者、译者等l单语文本结构信息l语篇、段落、句子、词的边界、词的词性l双语对齐信息l原文、译文 句子间的对应关系和对应模式语料库标记样例(一)语料库标记样例(一)语料库标记样例(二)语料库标记样例(二)北大的双语语料库北大的双语语料库技术研究l汉英双语语料库处理软件工具集l汉英双语语

4、料段落、句子级对齐软件l汉英双语语料词汇级对齐软件l汉语文本词语切分和词性标注软件l统计汉语句法分析软件lTokenizer for English TextlLemmatizer for English TextlPOS tagger for English Textl双语语料检索系统(Parallel Concordancer)双语词典编纂平台的结构双语词典编纂平台的结构双语词典编纂平台的基本功能l语料库的定制和索引l参考词典的定制和索引l词典编纂项目的管理l词典条目的生成和管理l释义词表的生成和管理l词典编纂任务的管理l词典编纂平台的用户管理l词典微观结构的定制和管理l结构化词条编辑界面

5、l语料库检索、参考词典检索l基于语料库的搭配信息统计分析词典编纂平台用户词典编纂平台用户系统管理员词典编纂平台用户词典编纂平台用户项目负责人词典编纂平台用户词典编纂平台用户词典编写人员词典微观结构的定制词典微观结构的定制词条的格式化编写词条的格式化编写语料的检索和统计语料的检索和统计查询语言语料检索举例语料检索举例语料的检索语料的检索排序生成词频表生成词频表搭配强度的统计和分析搭配强度的统计和分析结束语结束语l目前该平台已经具备了基本功能,正处在调试过程中。l进一步的工作方向l完善平台的基本功能(界面的改善)l加强基于语料库的搭配统计分析功能l词义的聚类分析l句法分析的应用(长距离搭配)l谢谢大家

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号