北京大学本科生毕业论文-自动标注汉语多音词

上传人:飞*** 文档编号:43958261 上传时间:2018-06-07 格式:DOC 页数:24 大小:348.50KB
返回 下载 相关 举报
北京大学本科生毕业论文-自动标注汉语多音词_第1页
第1页 / 共24页
北京大学本科生毕业论文-自动标注汉语多音词_第2页
第2页 / 共24页
北京大学本科生毕业论文-自动标注汉语多音词_第3页
第3页 / 共24页
北京大学本科生毕业论文-自动标注汉语多音词_第4页
第4页 / 共24页
北京大学本科生毕业论文-自动标注汉语多音词_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《北京大学本科生毕业论文-自动标注汉语多音词》由会员分享,可在线阅读,更多相关《北京大学本科生毕业论文-自动标注汉语多音词(24页珍藏版)》请在金锄头文库上搜索。

1、 本科生毕业论文题目: 自动标注汉语多音词 Automatic Tagging of Chinese Polyphony Word and Related Research 姓姓 名名: 何辉辉 学学 号号: 00748250 院院 系系: 信息科学技术学院 专专 业业: 计算机科学与技术 指导教师指导教师: 段慧明 二一八二一八年五月二十一日北京大学本科生毕业论文2摘要摘要汉语中存在着一字多音现象,很多高频字都具有两种或更多的读音,而这些多音字的读音并没有统一的规则可循。汉语多音词的自动标注,即将汉字序列转换成相应的拼音序列,是语音合成(TTS)系统的关键步骤。由于汉语文化的多义性和上下文相

2、关性等原因,目前的汉语注音系统很难达到 100%的正确率。本文研究了多音词的读音规律,总结了中文分词和词性标记的相关技术;设计了汉语多音词的注音系统,重点研究词性标记串的注音问题;本系统由Java 语言和 MySQL 数据库设计,采用统计与规则相结合的注音方法,通过不断完善总词表,尽可能提高注音准确率。从测试结果来看,系统对于封闭测试的正确率达到 95.2%,基本满足现有要求,具有良好的实用性;随着数据库的逐渐完善,正确率还将不断提高。 关键词:关键词:汉语多音词;词性标记;自动注音;统计与规则。北京大学本科生毕业论文3Automatic Tagging of Chinese Polyphon

3、y Word and Related ResearchAbstractIn Chinese, there are many frequently used characters, which have more than one pronunciation, and how to automatically tag those characters correctly is a key step in TTS system. However, because the pronunciation of a certain character is related to its context a

4、nd may have ambiguity, its very hard to find a universal rule. As a result, current systems can hardly achieve a 100% precision. This thesis researched the law on Chinese polyphone words pronunciation, and summarized the related techniques on Chinese segmentation and POS tagging. In our work, we des

5、igned a pinyin tagging system, which was designed by Java and MySQL database, to focus on the problem after POS tagging. We proposed an algorithm that combined the traditional statistical method and heuristic rules to achieve a better result. Moreover, we also conducted extensive experiments, and th

6、e result showed that it can achieve accuracy of 95.2%; with the improvement of word database, its accuracy will continually increase.Key words:Chinese Polyphony Word;POS Tagging;Automatic Tagging; Statistics and Rules.北京大学本科生毕业论文4目录摘要.2Abstract.3第一章 绪论.51.1 问题背景和研究意义.51.2 发展现状.61.3 本文组织结构.6第二章 读音.72.1 多音字与多音词.72.2 读音分类.72.3 读音规律.8第三章 分词与词性标注.103.1 分词定义.103.2 现有分词技术.103.3 N 元模型.113.4 词性标注定义.123.5 词性标记技术.123.6 隐马尔可夫模型.13第四章 拼音标注.154.1 标音定义.154.2 现有拼音标注技术.154.3 规则与统计相结合的注音方法.16第五章 多音词注音系统的实现.175.1 注音系统简介.175.2 开发环境.175.3 数据库表结构.175.4 程序模块结构.185.5 注

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号